LINUX.ORG.RU

Сбойная память?

 , ,


0

1

Есть древний сервер HP DL580 G5 с CentOS 7. В последнее время в сислог стали спамиться сообщения:

[2164864.727076] EDAC MC0: 1 CE Read error on unknown memory (branch:0 channel:1 slot:4 page:0x0 offset:0x0 grain:0 syndrome:0x4ccd1d10 - DRAM-Bank=1 RAS=4464 CAS=2732, Err=0x2000 (Correctable Non-Mirrored Demand Data ECC)))

Вроде очевидно, что какая-то планка памяти потихоньку выходит из строя. Но проблема в том, что памяти «branch:0 channel:1 slot:4» просто не существует:

$awk ‘{print $0}’ /sys/devices/system/edac/mc/mc0/dimm*/dimm_location

branch 0 channel 0 slot 0

branch 0 channel 1 slot 2

branch 0 channel 1 slot 3

branch 1 channel 0 slot 0

branch 1 channel 0 slot 1

branch 0 channel 0 slot 1

branch 1 channel 1 slot 0

branch 1 channel 1 slot 1

branch 0 channel 0 slot 2

branch 0 channel 0 slot 3

branch 0 channel 1 slot 0

branch 0 channel 1 slot 1

Если это действительно сбойная память, как ее найти? Очень не хочется лезть в сервер и вынимать планки по одной, там все очень неудобно сделано. Если же это не память, то что?


У меня большое подозрение, что в ядре, начиная с какой-то из последних версий 4.x, что-то крупно поломали в подсистеме памяти. Минимум раз в месяц вижу в логах какую-нибудь чешую типа «BUG: NULL pointer dereference» или что-то похожее.

alegz ★★★★
()

Вполне может быть что 0-1-4 это не банк памяти а просто код ошибки, записанный на место кода банка. Например ошибка в прошивке проца.

Но прогони мемтест на всякий случай. Ну и в IML логе должно быть что-то по идее. Возможно, надо ребутнуться после ошибки.

firkax ★★★★★
()
Ответ на: комментарий от Mogaba

Correctable ошибки в IML не попадают на HP. Например EDAC MC0: 1 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0), ProLiant DL360 G7 в iLo все прекрасно, проблемы не обнаружены

Bloody ★★
()
Ответ на: комментарий от Mogaba

Тогда не парься.
HP вообще рекомендует отключить edac на своих серверах.

bigbit ★★★★★
()
Ответ на: комментарий от Bloody

О как интересно. В Dell попадают и есть threshold, после которого пишется «всё, пора вот эту плашку под замену»

Dimez ★★★★★
()
Ответ на: комментарий от Dimez

В IML тоже появляются сообщения вида «Correctable memory errors threshold exceeded», и тогда планку надо менять. Просто не каждое сообщение от модуля EDAC отражается в IML.

Если открыть кейс в HPE только по сообщениям EDAC (а в IML будет пусто), то они не поменяют эту планку.

bigbit ★★★★★
()
Ответ на: комментарий от bigbit

Просто не каждое сообщение от модуля EDAC отражается в IML.

Понял, спасибо за уточнение. А то уж я подумал плохое.

Если открыть кейс в HPE только по сообщениям EDAC (а в IML будет пусто), то они не поменяют эту планку.

Это логично.

Dimez ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.