Было 2 диска в RAID1 и куча данных на них, место стало заканчиваться, я купил 3 диск и сделал:
- отключил один из дисков в RAID1
- собрал из 2 дисков RAID5 (
--chunk=256 --bitmap=internal --bitmap-chunk=131072
, данные параметры подбирал активными тестами fio)
- перекопировал данные из RAID1 в RAID5
- разобрал RAID1, добавил диск в RAID5
По итогу раз в несколько часов ловлю отвал одного диска с логами в dmesg
50-150 таких сообщений в течении одной секунды
[Вт сен 17 14:51:00 2024] mpt3sas_cm0: log_info(0x31110d00): originator(PL), code(0x11), sub_code(0x0d00)
далее отвал диска
[Вт сен 17 14:51:01 2024] sd 11:0:12:0: device_block, handle(0x000e)
[Вт сен 17 14:51:04 2024] sd 11:0:12:0: device_unblock and setting to running, handle(0x000e)
[Вт сен 17 14:51:04 2024] mpt3sas_cm0: remove hba_port entry: 00000000635f3795 port: 5 from hba_port list
[Вт сен 17 14:51:04 2024] raid5_end_read_request: 10073 callbacks suppressed
[Вт сен 17 14:51:04 2024] md/raid:md128: read error not correctable (sector 692063616 on sdg1).
[Вт сен 17 14:51:04 2024] md/raid:md128: read error not correctable (sector 692063624 on sdg1).
[Вт сен 17 14:51:04 2024] md/raid:md128: read error not correctable (sector 692063632 on sdg1).
[Вт сен 17 14:51:04 2024] md/raid:md128: read error not correctable (sector 692063640 on sdg1).
[Вт сен 17 14:51:04 2024] md/raid:md128: read error not correctable (sector 692063648 on sdg1).
[Вт сен 17 14:51:04 2024] md/raid:md128: read error not correctable (sector 692063656 on sdg1).
[Вт сен 17 14:51:04 2024] md/raid:md128: read error not correctable (sector 692063664 on sdg1).
[Вт сен 17 14:51:04 2024] md/raid:md128: read error not correctable (sector 692063672 on sdg1).
[Вт сен 17 14:51:04 2024] md/raid:md128: read error not correctable (sector 692063680 on sdg1).
[Вт сен 17 14:51:04 2024] md/raid:md128: read error not correctable (sector 692063688 on sdg1).
[Вт сен 17 14:51:04 2024] md: super_written gets error=-5
[Вт сен 17 14:51:04 2024] md/raid:md128: Disk failure on sdg1, disabling device.
[Вт сен 17 14:51:04 2024] md/raid:md128: Cannot continue operation (2/3 failed).
[Вт сен 17 14:51:04 2024] sd 11:0:12:0: [sdg] Synchronizing SCSI cache
[Вт сен 17 14:51:04 2024] sd 11:0:12:0: [sdg] Synchronize Cache(10) failed: Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[Вт сен 17 14:51:04 2024] mpt3sas_cm0: mpt3sas_transport_port_remove: removed: sas_addr(0x300605b00de92804)
[Вт сен 17 14:51:04 2024] mpt3sas_cm0: removing handle(0x000e), sas_addr(0x300605b00de92804)
[Вт сен 17 14:51:04 2024] mpt3sas_cm0: enclosure logical id(0x500605b00de92800), slot(6)
[Вт сен 17 14:51:04 2024] mpt3sas_cm0: enclosure level(0x0000), connector name( C1 )
[Вт сен 17 14:51:04 2024] md: md128: recovery interrupted.
[Вт сен 17 14:51:04 2024] Buffer I/O error on dev md128, logical block 64, async page read
[Вт сен 17 14:51:04 2024] Buffer I/O error on dev md128, logical block 64, async page read
[Вт сен 17 14:51:04 2024] md128: detected capacity change from 46875004928 to 0
[Вт сен 17 14:51:04 2024] md: md128 stopped.
[Вт сен 17 14:51:12 2024] mpt3sas_cm0: hba_port entry: 00000000f61f8dea, port: 5 is added to hba_port list
[Вт сен 17 14:51:12 2024] mpt3sas_cm0: handle(0xe) sas_address(0x300605b00de92804) port_type(0x1)
[Вт сен 17 14:51:12 2024] scsi 11:0:13:0: Direct-Access ATA WDC WD120EFBX-68 0A85 PQ: 0 ANSI: 6
[Вт сен 17 14:51:12 2024] scsi 11:0:13:0: SATA: handle(0x000e), sas_addr(0x300605b00de92804), phy(4), device_name(0x0000000000000000)
[Вт сен 17 14:51:12 2024] scsi 11:0:13:0: enclosure logical id (0x500605b00de92800), slot(6)
[Вт сен 17 14:51:12 2024] scsi 11:0:13:0: enclosure level(0x0000), connector name( C1 )
[Вт сен 17 14:51:12 2024] scsi 11:0:13:0: atapi(n), ncq(y), asyn_notify(n), smart(y), fua(y), sw_preserve(y)
[Вт сен 17 14:51:12 2024] scsi 11:0:13:0: qdepth(128), tagged(1), scsi_level(7), cmd_que(1)
[Вт сен 17 14:51:12 2024] mpt3sas_cm0: log_info(0x31200205): originator(PL), code(0x20), sub_code(0x0205)
[Вт сен 17 14:51:12 2024] sd 11:0:13:0: Attached scsi generic sg6 type 0
[Вт сен 17 14:51:12 2024] end_device-11:13: add: handle(0x000e), sas_addr(0x300605b00de92804)
[Вт сен 17 14:51:12 2024] sd 11:0:13:0: Power-on or device reset occurred
[Вт сен 17 14:51:12 2024] sd 11:0:13:0: [sdg] 23437770752 512-byte logical blocks: (12.0 TB/10.9 TiB)
[Вт сен 17 14:51:12 2024] sd 11:0:13:0: [sdg] 4096-byte physical blocks
[Вт сен 17 14:51:12 2024] sd 11:0:13:0: [sdg] Write Protect is off
[Вт сен 17 14:51:12 2024] sd 11:0:13:0: [sdg] Mode Sense: 9b 00 10 08
[Вт сен 17 14:51:12 2024] sd 11:0:13:0: [sdg] Write cache: enabled, read cache: enabled, supports DPO and FUA
[Вт сен 17 14:51:12 2024] sdg: sdg1
[Вт сен 17 14:51:12 2024] sd 11:0:13:0: [sdg] Attached SCSI disk
Сразу после этого смотрю SMART отвалившегося диска: идеальный, выросли только «Start_Stop_Count» и связанные счетчики
Пересобираю RAID с ключем --force
, синхронизация начинается с начала, часа через 2-5 всё повторяется.
Ограничивать скорость синхронизации до 80Mb/s не помогает
В проблемы питания не верю т.к. эта вся куча дисков пережила и активные fio тесты и копирование данных на уровне fs
Странно, что отваливается всегда конкретно этот диск и никакие другие.
Контроллер у меня lsi 9300-8i в HBA режиме
23:00.0 Serial Attached SCSI controller: Broadcom / LSI SAS3408 Fusion-MPT Tri-Mode I/O Controller Chip (IOC) (rev 01)
На диски дует вентилятор, на контроллер тоже, температура дисков держится ~45 градусов, контроллер свою температуру не говорит или я не знаю как смотреть.
Вопросы:
На что ещё смотреть, что выходит из строя?
Раз-через несколько при пересборке RAID синхронизация продолжается, как бы сделать чтобы каждый раз так было?
Я не уверен продолжит ли диск также отваливаться даже если RAID успешно синхронизируется.