Есть древний сервер HP DL580 G5 с CentOS 7. В последнее время в сислог стали спамиться сообщения:
[2164864.727076] EDAC MC0: 1 CE Read error on unknown memory (branch:0 channel:1 slot:4 page:0x0 offset:0x0 grain:0 syndrome:0x4ccd1d10 - DRAM-Bank=1 RAS=4464 CAS=2732, Err=0x2000 (Correctable Non-Mirrored Demand Data ECC)))
Вроде очевидно, что какая-то планка памяти потихоньку выходит из строя. Но проблема в том, что памяти «branch:0 channel:1 slot:4» просто не существует:
$awk ‘{print $0}’ /sys/devices/system/edac/mc/mc0/dimm*/dimm_location
branch 0 channel 0 slot 0
branch 0 channel 1 slot 2
branch 0 channel 1 slot 3
branch 1 channel 0 slot 0
branch 1 channel 0 slot 1
branch 0 channel 0 slot 1
branch 1 channel 1 slot 0
branch 1 channel 1 slot 1
branch 0 channel 0 slot 2
branch 0 channel 0 slot 3
branch 0 channel 1 slot 0
branch 0 channel 1 slot 1
Если это действительно сбойная память, как ее найти? Очень не хочется лезть в сервер и вынимать планки по одной, там все очень неудобно сделано. Если же это не память, то что?