Сбойная память?

0

1

Есть древний сервер HP DL580 G5 с CentOS 7. В последнее время в сислог стали спамиться сообщения:

[2164864.727076] EDAC MC0: 1 CE Read error on unknown memory (branch:0 channel:1 slot:4 page:0x0 offset:0x0 grain:0 syndrome:0x4ccd1d10 - DRAM-Bank=1 RAS=4464 CAS=2732, Err=0x2000 (Correctable Non-Mirrored Demand Data ECC)))

Вроде очевидно, что какая-то планка памяти потихоньку выходит из строя. Но проблема в том, что памяти «branch:0 channel:1 slot:4» просто не существует:

$awk ‘{print $0}’ /sys/devices/system/edac/mc/mc0/dimm*/dimm_location

branch 0 channel 0 slot 0

branch 0 channel 1 slot 2

branch 0 channel 1 slot 3

branch 1 channel 0 slot 0

branch 1 channel 0 slot 1

branch 0 channel 0 slot 1

branch 1 channel 1 slot 0

branch 1 channel 1 slot 1

branch 0 channel 0 slot 2

branch 0 channel 0 slot 3

branch 0 channel 1 slot 0

branch 0 channel 1 slot 1

Если это действительно сбойная память, как ее найти? Очень не хочется лезть в сервер и вынимать планки по одной, там все очень неудобно сделано. Если же это не память, то что?

Ссылка

←	Fedora Workstation 36 — 0bda:c811 Realtek Semiconductor Corp. 802.11ac NIC

Платформа для роутера (amd64)

→

Смотри лог IML. Если там нет ошибок, то все OK.

bigbit ★★★★★
(22.09.22 16:20:25 MSK)

У меня большое подозрение, что в ядре, начиная с какой-то из последних версий 4.x, что-то крупно поломали в подсистеме памяти. Минимум раз в месяц вижу в логах какую-нибудь чешую типа «BUG: NULL pointer dereference» или что-то похожее.

alegz ★★★★
(22.09.22 18:24:12 MSK)

Ссылка

Вполне может быть что 0-1-4 это не банк памяти а просто код ошибки, записанный на место кода банка. Например ошибка в прошивке проца.

Но прогони мемтест на всякий случай. Ну и в IML логе должно быть что-то по идее. Возможно, надо ребутнуться после ошибки.

firkax ★★★★★
(23.09.22 00:01:55 MSK)

Ссылка

Ответ на: комментарий от bigbit 22.09.22 16:20:25 MSK

В IML - тишина. Попробую еще мемтестом прогнать на выходных.

Mogaba
(23.09.22 09:38:24 MSK) автор топика

Ответ на: комментарий от Mogaba 23.09.22 09:38:24 MSK

Correctable ошибки в IML не попадают на HP. Например EDAC MC0: 1 CE error on CPU#0Channel#0_DIMM#0 (channel:0 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0), ProLiant DL360 G7 в iLo все прекрасно, проблемы не обнаружены

Bloody ★★
(23.09.22 13:43:32 MSK)

Ответ на: комментарий от Mogaba 23.09.22 09:38:24 MSK

Тогда не парься.
HP вообще рекомендует отключить edac на своих серверах.

bigbit ★★★★★
(23.09.22 14:57:40 MSK)

Ссылка

Ответ на: комментарий от Bloody 23.09.22 13:43:32 MSK

О как интересно. В Dell попадают и есть threshold, после которого пишется «всё, пора вот эту плашку под замену»

Dimez ★★★★★
(23.09.22 19:18:20 MSK)

Ответ на: комментарий от Dimez 23.09.22 19:18:20 MSK

В IML тоже появляются сообщения вида «Correctable memory errors threshold exceeded», и тогда планку надо менять. Просто не каждое сообщение от модуля EDAC отражается в IML.

Если открыть кейс в HPE только по сообщениям EDAC (а в IML будет пусто), то они не поменяют эту планку.

bigbit ★★★★★
(23.09.22 20:45:41 MSK)

Ответ на: комментарий от bigbit 23.09.22 20:45:41 MSK

Просто не каждое сообщение от модуля EDAC отражается в IML.

Понял, спасибо за уточнение. А то уж я подумал плохое.

Если открыть кейс в HPE только по сообщениям EDAC (а в IML будет пусто), то они не поменяют эту планку.

Это логично.

Dimez ★★★★★
(23.09.22 20:54:46 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Fedora Workstation 36 — 0bda:c811 Realtek Semiconductor Corp. 802.11ac NIC

Linux-hardware

Платформа для роутера (amd64)

→

Похожие темы