Добрый день!
Возникла странная проблема с дисками. Система периодически (с разными интервалами времени) зависает намертво.
Что удалось выяснить:
В логах нашел такое:
Apr 10 16:13:22 host001 kernel: [ 5030.020649] sd 1:0:0:0: [sda] tag#18 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.020654] sd 1:0:0:0: [sda] tag#18 CDB: Write(10) 2a 00 58 ea 9f 6f 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.021715] sd 1:0:0:0: [sda] tag#19 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.021719] sd 1:0:0:0: [sda] tag#19 CDB: Write(10) 2a 00 58 ea 9c b7 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.022692] sd 1:0:0:0: [sda] tag#20 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.022695] sd 1:0:0:0: [sda] tag#20 CDB: Write(10) 2a 00 58 e7 d0 ef 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.023686] sd 1:0:0:0: [sda] tag#21 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.023689] sd 1:0:0:0: [sda] tag#21 CDB: Write(10) 2a 00 58 e7 cd 8f 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.024632] sd 1:0:0:0: [sda] tag#22 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.024635] sd 1:0:0:0: [sda] tag#22 CDB: Write(10) 2a 00 58 e7 cc df 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.025556] sd 1:0:0:0: [sda] tag#8 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.025560] sd 1:0:0:0: [sda] tag#8 CDB: Write(10) 2a 00 00 8b 74 e0 00 00 40 00
Apr 10 16:13:22 host001 kernel: [ 5030.026473] sd 1:0:0:0: [sda] tag#23 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.026476] sd 1:0:0:0: [sda] tag#23 CDB: Write(10) 2a 00 48 8c 00 97 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.027366] sd 1:0:0:0: [sda] tag#24 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.027369] sd 1:0:0:0: [sda] tag#24 CDB: Write(10) 2a 00 48 8c 00 6f 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.028239] sd 1:0:0:0: [sda] tag#25 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.028242] sd 1:0:0:0: [sda] tag#25 CDB: Write(10) 2a 00 48 8c 00 5f 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.029126] sd 1:0:0:0: [sda] tag#26 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.029129] sd 1:0:0:0: [sda] tag#26 CDB: Write(10) 2a 00 48 8c 00 4f 00 00 08 00
Apr 10 16:19:48 host001 kernel: [ 5415.580973] sd 1:0:0:0: [sda] tag#9 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:19:48 host001 kernel: [ 5415.580977] sd 1:0:0:0: [sda] tag#9 CDB: ATA command pass through(16) 85 06 2c 00 00 00 00 00 00 00 00 00 00 00 e5 00
Apr 10 16:25:36 host001 kernel: [ 4.632185] sd 1:0:0:0: [sda] 1953525168 512-byte logical blocks: (1.00 TB/932 GiB)
Apr 10 16:25:36 host001 kernel: [ 4.632188] sd 1:0:0:0: [sda] 4096-byte physical blocks
Apr 10 16:25:36 host001 kernel: [ 4.632195] sd 1:0:0:0: [sda] Write Protect is off
Apr 10 16:25:36 host001 kernel: [ 4.632209] sd 1:0:0:0: [sda] Write cache: disabled, read cache: enabled, doesn't support DPO or FUA
Apr 10 16:25:36 host001 kernel: [ 5.079987] sda: sda1
Apr 10 16:25:36 host001 kernel: [ 5.080546] sd 1:0:0:0: [sda] Attached SCSI removable disk
После чего, корневой раздел переходит в режим read-only и система перестает нормально функционировать. Помогает только перезапуск.
На машине используется RAID1 через mdadm . Диски выбивает поочередно. Контроллер SATA: 82801JI (ICH10 Family) SATA AHCI Controller
Незадолго до появления этой проблемы обновился с Debian 9 на 10 но не уверен что это связанно. Проблема начала проявляться только дня через 4 после обновления.
Обновление ядра из бэкпортов и замена SATA кабелей не помогла. Проблема точно не в дисках, т.к. заменил один из них на новый после чего он также вылетал. S.M.A.R.T. показывает нормальные значения на обоих дисках.
В чем может быть проблема? Может кто такое встречал.