LINUX.ORG.RU

История изменений

Исправление bigbit, (текущая версия) :

не оказалось ни одной ошибки даже скорректированной

Это не значит, что их не было.
Ибо это сильно зависит от железа. У HP например, часть ошибок исправляется молча, и ничего ни в какие логи не пишется. Много раз видел в логах iLO сообщение, что превышен порог корректируемых ошибок для определенного DIMM'а, после чего поддержка HP меняла этот модуль. А вот сообщений об одиночных ошибках при этом не было.

Или вот другая крайность. Информация о корректируемых ошибках дошла до ОС, и ядро даже перевело сответвующую страницу памяти в оффлайн(!):

Hardware event. This is not a software error.
MCE 0
CPU 14 BANK 5
MISC 204214f486 ADDR 1011ebee40
TIME 1479719707 Mon Nov 21 09:15:07 2016
MCG status:
MCi status:
Error overflow
Corrected error
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNEL1_ERR
Transaction: Memory read error
STATUS cc00020000010091 MCGSTATUS 0
MCGCAP 1000814 APICID 2c SOCKETID 1
CPUID Vendor Intel Family 6 Model 45
Corrected memory errors on page 1011ebe000 exceed threshold 10 in 24h: 10 in 24h
Location SOCKET:1 CHANNEL:1 DIMM:? []
Offlining page 1011ebe000

При этом техподдержка HP отказалась менять этот модуль, т.к. в логах iLO, видите ли, ничего не было. У них даже есть статья в knowledge-базе - выключить на сервере всякие EDAC и MCE, и доверять встроенным средствам их серверов (независимым от ОС).

Исходная версия bigbit, :

не оказалось ни одной ошибки даже скорректированной

Это не значит, что их не было.
Ибо это сильно зависит от железа. У HP например, часть ошибок исправляется молча, и ничего ни в какие логи не пишется. Много раз видел в логах iLO сообщение, что превышен порог корректируемых ошибок для определенного DIMM'а, после чего поддержка HP меняла этот модуль. А вот сообщений об одиночных ошибках при этом не было.

Или вот другая крайность. Информация о корректируемых ошибках дошла до ОС, и ядро даже перевело сответвующую страницу памяти в оффлайн(!):

Hardware event. This is not a software error.
MCE 0
CPU 14 BANK 5
MISC 204214f486 ADDR 1011ebee40
TIME 1479719707 Mon Nov 21 09:15:07 2016
MCG status:
MCi status:
Error overflow
Corrected error
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNEL1_ERR
Transaction: Memory read error
STATUS cc00020000010091 MCGSTATUS 0
MCGCAP 1000814 APICID 2c SOCKETID 1
CPUID Vendor Intel Family 6 Model 45
Corrected memory errors on page 1011ebe000 exceed threshold 10 in 24h: 10 in 24h
Location SOCKET:1 CHANNEL:1 DIMM:? []
Offlining page 1011ebe000

При этом техподдержка HP отказалась менять этот модуль, т.к. в логах iLO, видите ли, ничего не было. У них есть даже есть статься к knowledge-базе - выключить на сервере всякие EDAC и MCE, и доверять встроенным средствам их серверов (независимым от ОС).