LINUX.ORG.RU

аппаратная ошибка в процессоре

 , ,


0

1

Приветствую ${LORuser}!

Дано:

1. H/W сборки октября 2012 г.

CPU: FX-8150

RAM: 16G Kingston (4x4Gb)

MB: GigaByte GA-970A-UD3, BIOS Version: F7

Video: AMD Radeon HD 6670

HDD: SDD 128 GB + 3*2TB (mdadm+LVM на /var /home swap и на еще кое-какое кастомное монтирование)

2. S/W: Debian GNU/Linux 7.1 AMD64 + регулярное aptitide update ; aptitude upgrade. Стандартный рабочий стол. Драйвер VGA — свободный, но одно время на эту установку ставился проприетарный, который потом снёс.

3. Задачи:

3.1. BOINC Client — версия из репозитория, ничего из настроек особо не ковырял, крутится постоянно.

3.2. Разные всякие десктопные дела

3.3. Последняя крупная задача, которую запустил, которая была завершена во время возникновением проблемы: поставил на ночь сжатие образа жёсткого диска размером 500.1GB архиватором 7-zip, файлы порезаны по 1GB:

$ 7za a -t7z -m0=lzma -mx=9 -mfb=64 -md=32m -ms=on -v1g ./vpupkin-20130808-001-dvd.7z ../vpupkin-20130808-001

7-Zip (A) [64] 9.20  Copyright (c) 1999-2010 Igor Pavlov  2010-11-18
p7zip Version 9.20 (locale=ru_RU.utf8,Utf16=on,HugeFiles=on,4 CPUs)
Scanning

Creating archive ./vpupkin-20130808-001-dvd.7z

Compressing  vpupkin-20130808-001/sda.img   85%
Message from syslogd@infra at Aug 16 10:33:40 ...
 kernel:[563400.780027] [Hardware Error]: CPU:3	MC2_STATUS[-|CE|MiscV|-|-|-|-|CECC]: 0x98644000000c0176

Message from syslogd@infra at Aug 16 10:33:40 ...
 kernel:[563400.780039] [Hardware Error]: Combined Unit Error: VB Data/ECC error.

Message from syslogd@infra at Aug 16 10:33:40 ...
 kernel:[563400.780045] [Hardware Error]: cache level: L2, tx: DATA, mem-tx: EV
      
Compressing  vpupkin-20130808-001/sda.img.log      
Compressing  vpupkin-20130808-001/dev-sda.md5      
Compressing  vpupkin-20130808-001/sda.img.md5      

Everything is Ok

$ uptime
 23:41:50 up 7 days,  1:38,  5 users,  load average: 1,73, 2,34, 2,40
$

Справедливости ради надо сообщить, что иногда BOINC-клиент возвращает ошибки (что задание по сигналу 11 скопытилось). Но это не мешает работе системы в целом. Софтовый RAID работает без ошибок, что проверяется штатными средствами планировщика, так и иногда вручную. Система на момент ошибки не зависла. Да и вообще, зависает крайне редко. Зависала, впрочем, когда были включены все 8 ядер (вероятно от перегрева). Но потом в BIOS оставил включёнными лишь по одному ядру на каждую пару, и это безобразие прекратилось.

Из мессаг видно, что дело в ошибке в кеше L2, которая была впрочем успешно обнаружена и скорректирована?

Вопрос: что делать дальше с этим, т.е. как застраховаться от повторений подобного? Рассматриваются любые методы, вплоть до радикальных, т.е. замены камня с материнкой на Intel-based. Впрочем, рассматриваются и другие варианты из тех, которые вы сможете предложить.

И да: для надёжности, так понял, запускать сжатие заново?

PS: Господа модераторы, перенесите, пожалуйста тему в Linux-hardware :-)

★★★★★

Последнее исправление: Infra_HDC (всего исправлений: 3)

как застраховаться от повторений подобного?

Электроника деградирует от высоких температур. Т.е. разик сильно перегрел - с некоторой вероятностью что-то может испортится.

Погоняй тесты всякие.

ziemin ★★
()

У самого такой камень, никогда не сталкивался, хотя как то комп пару суток гонял на F@H на 8 ядер. Разгон есть?

Deneb
()
Последнее исправление: Deneb (всего исправлений: 1)
Ответ на: комментарий от Deneb

Разгона нет. Всё на AUTO. Сейчас ходил смотрел, и решил множитель уменьшить с AUTO до x15, чтобы было 3000MHz вместо штатных 3600Mhz, и частоту с AUTO переставил на 200. Если ошибки будут повторяться, буду уменьшать множитель ещё. Видно, деграция всё же есть, как правильно заметил ziemin.

Infra_HDC ★★★★★
() автор топика
Ответ на: комментарий от ziemin

Тест может ничего не дать, если была нарушена целостность данных на входе, а не во время упаковки, нет?

Infra_HDC ★★★★★
() автор топика

UP! 1. Уменьшил множитель до x10, т.е. частота сейчас 2000MHz (при частоте 3000MHz при включении задачи архивирования температура поднималась до 50+oC) 2. Включил все восемь ядер. 3. Теперь температура CPU при включённом задании архивации ~= 30oC.

Infra_HDC ★★★★★
() автор топика
Ответ на: комментарий от Infra_HDC

Уменьшите до x1 и займитесь производством льда.

А так, система охлаждения процессора должна обеспечивать его работу при всех включенных ядрах при полной нагрузке. Понятно, что при штатных условиях (в комнате не +45 и материнка не даёт завышенное напряжение питания). Так что лучше изучайте что у вас с радиатором (пыль, термопаста, вентилятор и т.д.).

mky ★★★★★
()
Ответ на: комментарий от anonymous

1. Нет не буду, т.к. уже стоит, причём давно:

$ aptitude show amd64-microcode
Пакет: amd64-microcode                           
Новый: да
Состояние: установлен
Автоматически установлен: нет
Версия: 1.20120910-2
Приоритет: дополнительный
Раздел: non-free/admin
Сопровождающий: Henrique de Moraes Holschuh <hmh@debian.org>
Архитектура: amd64
Размер в распакованном виде: 97,3 k
Конфликтуют: amd64-microcode
Описание: Processor microcode firmware for AMD CPUs
 This package contains microcode patches for all AMD AMD64 processors.  AMD
 releases microcode patches to correct processor behavior as documented in the
 respective processor revision guides. 
 
 For Intel processors, please refer to the intel-microcode package.
Сайт: http://www.amd64.org/support/microcode.html
$
2. А что бы дала эта установка? Кэш — просто память, и обнаружение в ней ошибок — аппаратное, не связанное с фиксом микрокода, т.е. команд.

Infra_HDC ★★★★★
() автор топика
Ответ на: комментарий от mky

Да уже переставлял вентилятор и пасту менял. Это делал в самом начале, еще в том году. Не помогает. Всё стоит на AUTO, и вольтаж в т.ч. На всякий случай ссылка конфигурации, где можно посмотреть, что за вентилятор: http://www.citilink.ru/configurator/q2076756/

Infra_HDC ★★★★★
() автор топика

Стало интересно, потыкал гугл. Кто-то при подобной проблеме писал в AMD и там согласились что проблема в конкретном CPU. mprime и memtest похоже могут выполняться нормально.

Гарантия еще случайно не действует?

qux
()
Ответ на: комментарий от qux

Боюсь, нервов больше потрачу в гарантийном отделе, чем если бы просто подкрутил в биосе параметр. Да и проявляется крайне редко эффект, а там у них большая загрузка, буду ждать долго, а мне работать надо ).

Infra_HDC ★★★★★
() автор топика
Ответ на: комментарий от Infra_HDC

Вроде как есть вероятность, что со временем ухудшится. В гарантийке может быть проблема 1) воспроизвести; 2) на винде, а так /me бы всё-таки заморочился. В идеале конечно в первые 14 дней заменить, без объяснений..

qux
()
Ответ на: комментарий от qux

Есть желание заменить кулер в ближайшем будущем. Сейчас же буду поднимать частоту до 2400MHz...2800MHz — если всё норм будет, останусь на той частоте, при которой на полной нагрузке t~=40-45oC.

Infra_HDC ★★★★★
() автор топика
Ответ на: комментарий от Infra_HDC

Решение так себе, имхо. Даже упомянутые 50°С вроде как далеко от критических. Да и на последних современные процессоры просто троттлинг должны включать.

qux
()

замены камня с материнкой на Intel-based

Сиране амд днлает свои камни из отходов фабрик intel, шок, 66 видео!

anonymous
()
Ответ на: комментарий от Infra_HDC

Уменьшил множитель до x10, т.е. частота сейчас 2000MHz

Купи на барахолке pentium4 — быстрее считать будет и без косяков.

anonymous
()
Ответ на: комментарий от Infra_HDC

обнаружение в ней ошибок ... не связанное с фиксом микрокода

Пруф.

anonymous
()

AMD ссзб

anonymous
()

#cat /dev/mcelog если пусто то ты паникёр 😜

anonymous
()
Ответ на: комментарий от qux

Насчёт старого кулера там была ветка, что больше 110 Ватт тепла не рассеивает. Тут поигрался с множителем: 2000 МГц == максимум 65 Ватт потребления, 2200 МГц и больше == более 100 Ватт выдаёт. Вот и думаю )). А насчёт интелев четвёртого поколения есть расхожее мнение, что любят под 130 Ватт рассеивать, так что мой возврат на интель может быть тоже не тортом ).

Infra_HDC ★★★★★
() автор топика

ZALMAN CNPS10X EXTREME, 120мм поставил вместо старого кулера. На 10оС температура уменьшилась, т.е. выше 41оС не поднимается при полной нагрузке.

Infra_HDC ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.