Приветствую ${LORuser}!
Дано:
1. H/W сборки октября 2012 г.
CPU: FX-8150
RAM: 16G Kingston (4x4Gb)
MB: GigaByte GA-970A-UD3, BIOS Version: F7
Video: AMD Radeon HD 6670
HDD: SDD 128 GB + 3*2TB (mdadm+LVM на /var /home swap и на еще кое-какое кастомное монтирование)
2. S/W: Debian GNU/Linux 7.1 AMD64 + регулярное aptitide update ; aptitude upgrade. Стандартный рабочий стол. Драйвер VGA — свободный, но одно время на эту установку ставился проприетарный, который потом снёс.
3. Задачи:
3.1. BOINC Client — версия из репозитория, ничего из настроек особо не ковырял, крутится постоянно.
3.2. Разные всякие десктопные дела
3.3. Последняя крупная задача, которую запустил, которая была завершена во время возникновением проблемы: поставил на ночь сжатие образа жёсткого диска размером 500.1GB архиватором 7-zip, файлы порезаны по 1GB:
$ 7za a -t7z -m0=lzma -mx=9 -mfb=64 -md=32m -ms=on -v1g ./vpupkin-20130808-001-dvd.7z ../vpupkin-20130808-001
7-Zip (A) [64] 9.20 Copyright (c) 1999-2010 Igor Pavlov 2010-11-18
p7zip Version 9.20 (locale=ru_RU.utf8,Utf16=on,HugeFiles=on,4 CPUs)
Scanning
Creating archive ./vpupkin-20130808-001-dvd.7z
Compressing vpupkin-20130808-001/sda.img 85%
Message from syslogd@infra at Aug 16 10:33:40 ...
kernel:[563400.780027] [Hardware Error]: CPU:3 MC2_STATUS[-|CE|MiscV|-|-|-|-|CECC]: 0x98644000000c0176
Message from syslogd@infra at Aug 16 10:33:40 ...
kernel:[563400.780039] [Hardware Error]: Combined Unit Error: VB Data/ECC error.
Message from syslogd@infra at Aug 16 10:33:40 ...
kernel:[563400.780045] [Hardware Error]: cache level: L2, tx: DATA, mem-tx: EV
Compressing vpupkin-20130808-001/sda.img.log
Compressing vpupkin-20130808-001/dev-sda.md5
Compressing vpupkin-20130808-001/sda.img.md5
Everything is Ok
$ uptime
23:41:50 up 7 days, 1:38, 5 users, load average: 1,73, 2,34, 2,40
$
Справедливости ради надо сообщить, что иногда BOINC-клиент возвращает ошибки (что задание по сигналу 11 скопытилось). Но это не мешает работе системы в целом. Софтовый RAID работает без ошибок, что проверяется штатными средствами планировщика, так и иногда вручную. Система на момент ошибки не зависла. Да и вообще, зависает крайне редко. Зависала, впрочем, когда были включены все 8 ядер (вероятно от перегрева). Но потом в BIOS оставил включёнными лишь по одному ядру на каждую пару, и это безобразие прекратилось.
Из мессаг видно, что дело в ошибке в кеше L2, которая была впрочем успешно обнаружена и скорректирована?
Вопрос: что делать дальше с этим, т.е. как застраховаться от повторений подобного? Рассматриваются любые методы, вплоть до радикальных, т.е. замены камня с материнкой на Intel-based. Впрочем, рассматриваются и другие варианты из тех, которые вы сможете предложить.
И да: для надёжности, так понял, запускать сжатие заново?
PS: Господа модераторы, перенесите, пожалуйста тему в Linux-hardware :-)