LINUX.ORG.RU

Контроллер LSI1068 начал ругаться непонятными словами


0

1

Есть сервер, там карточка LSI 8208XLP, 8-портовый SAS-контроллер. Некоторое время назад драйвер начал вот такое вот писать:

[14309.679136] mptbase: ioc0: LogInfo(0x31110d00): Originator={PL}, Code={Reset}, SubCode(0x0d00) cb_idx mptscsih_io_done
[14404.131784] mptbase: ioc0: LogInfo(0x31110d00): Originator={PL}, Code={Reset}, SubCode(0x0d00) cb_idx mptbase_reply
[14408.429990] mptbase: ioc0: LogInfo(0x31110d00): Originator={PL}, Code={Reset}, SubCode(0x0d00) cb_idx mptscsih_io_done
[14408.430167] mptbase: ioc0: LogInfo(0x31110d00): Originator={PL}, Code={Reset}, SubCode(0x0d00) cb_idx mptscsih_io_done
[14408.430346] mptbase: ioc0: LogInfo(0x31110d00): Originator={PL}, Code={Reset}, SubCode(0x0d00) cb_idx mptscsih_io_done
[14762.080460] mptbase: ioc0: LogInfo(0x31110d00): Originator={PL}, Code={Reset}, SubCode(0x0d00) cb_idx mptbase_reply
[14766.435192] mptbase: ioc0: LogInfo(0x31110d00): Originator={PL}, Code={Reset}, SubCode(0x0d00) cb_idx mptscsih_io_done
[14766.435372] mptbase: ioc0: LogInfo(0x31110d00): Originator={PL}, Code={Reset}, SubCode(0x0d00) cb_idx mptscsih_io_done
[14766.435548] mptbase: ioc0: LogInfo(0x31110d00): Originator={PL}, Code={Reset}, SubCode(0x0d00) cb_idx mptscsih_io_done
[14766.435726] mptbase: ioc0: LogInfo(0x31110d00): Originator={PL}, Code={Reset}, SubCode(0x0d00) cb_idx mptscsih_io_done

Иногда это приводило к отваливанию винта (исчезало блочное устройство и появлялось под другим именем):

Apr  9 13:35:23 artek kernel: [ 3600.560862] mptbase: ioc0: LogInfo(0x30050000): Originator={IOP}, Code={Task Terminated}, SubCode(0x0000) cb_idx mptscsih_io_done
Apr  9 13:35:23 artek kernel: [ 3600.560884] sd 7:0:8:0: [sdy] Unhandled error code
Apr  9 13:35:23 artek kernel: [ 3600.560886] sd 7:0:8:0: [sdy]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
Apr  9 13:35:23 artek kernel: [ 3600.560890] sd 7:0:8:0: [sdy] CDB: Write(10): 2a 00 01 0d 20 7b 00 00 80 00
Apr  9 13:35:23 artek kernel: [ 3600.560897] end_request: I/O error, dev sdy, sector 17637499
Apr  9 13:35:23 artek kernel: [ 3600.560900] Buffer I/O error on device sdy2, logical block 7130989
Apr  9 13:35:23 artek kernel: [ 3600.560902] lost page write due to I/O error on sdy2
Apr  9 13:35:23 artek kernel: [ 3600.560906] Buffer I/O error on device sdy2, logical block 7130990
Apr  9 13:35:23 artek kernel: [ 3600.560908] lost page write due to I/O error on sdy2
Apr  9 13:35:23 artek kernel: [ 3600.560910] Buffer I/O error on device sdy2, logical block 7130991
Apr  9 13:35:23 artek kernel: [ 3600.560912] lost page write due to I/O error on sdy2
Apr  9 13:35:23 artek kernel: [ 3600.560914] Buffer I/O error on device sdy2, logical block 7130992
Apr  9 13:35:23 artek kernel: [ 3600.560916] lost page write due to I/O error on sdy2
Apr  9 13:35:23 artek kernel: [ 3600.560926] Buffer I/O error on device sdy2, logical block 7130993
Apr  9 13:35:23 artek kernel: [ 3600.560927] lost page write due to I/O error on sdy2
Apr  9 13:35:23 artek kernel: [ 3600.560929] Buffer I/O error on device sdy2, logical block 7130994
Apr  9 13:35:23 artek kernel: [ 3600.560931] lost page write due to I/O error on sdy2
Apr  9 13:35:23 artek kernel: [ 3600.560935] mptbase: ioc0: LogInfo(0x30050000): Originator={IOP}, Code={Task Terminated}, SubCode(0x0000) cb_idx mptscsih_io_done
....
Apr  9 13:39:47 artek kernel: [ 3864.302182] mptsas: ioc0: attaching sata device: fw_channel 0, fw_id 10, phy 6, sas_addr 0x49633652e8baca67
Apr  9 13:39:47 artek kernel: [ 3864.309321] scsi 7:0:9:0: Direct-Access     ATA      WDC WD10TPVT-00H 1A01 PQ: 0 ANSI: 5
Apr  9 13:39:47 artek kernel: [ 3864.311232] sd 7:0:9:0: Attached scsi generic sg28 type 0
Apr  9 13:39:47 artek kernel: [ 3864.312884] sd 7:0:9:0: [sdu] 1953525168 512-byte logical blocks: (1.00 TB/931 GiB)
Apr  9 13:39:47 artek kernel: [ 3864.328190] sd 7:0:9:0: [sdu] Write Protect is off
Apr  9 13:39:47 artek kernel: [ 3864.328195] sd 7:0:9:0: [sdu] Mode Sense: 73 00 00 08
Apr  9 13:39:47 artek kernel: [ 3864.334785] sd 7:0:9:0: [sdu] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Apr  9 13:39:47 artek kernel: [ 3864.660125]  sdu: sdu1 sdu2
Apr  9 13:39:47 artek kernel: [ 3864.724587] sd 7:0:9:0: [sdu] Attached SCSI disk
Apr  9 13:39:51 artek kernel: [ 3868.437830] scsi target7:0:8: mptsas: ioc0: delete device: fw_channel 0, fw_id 10, phy 6, sas_addr 0x49633652e8baca67

Гугель рассказал что это может быть вызвано демоном смартд, который через SAT-трансляцию читает сматр-аттрибуты. Вырубил его, а гадость в логи всё равно лезет...

Ответ на: комментарий от soomrack

1. Да не особо, ядро .38.2, было и с .38.1 2. Один винт из тех что отваливались выдает через смарт Current_Pending_Sector = 446, потятно что тут ему уже туго. Но второй вот безо всяких подозрительных параметров в смарте, но тоже отвалилсо...

blind_oracle ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.