Доброго дня!
Имеется сервер с контроллером LSI 9650,иногда он впадает в предсмертное состояние.В dmesg:
[2088308.284824] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088338.224342] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088398.101369] 3w-9xxx: scsi4: WARNING: (0x06:0x0037): Character ioctl (0x108) timed out, resetting card.
[2088428.041885] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088457.982411] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088517.872416] 3w-9xxx: scsi4: WARNING: (0x06:0x0037): Character ioctl (0x108) timed out, resetting card.
[2088547.812936] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088577.752456] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088637.629508] 3w-9xxx: scsi4: WARNING: (0x06:0x0037): Character ioctl (0x108) timed out, resetting card.
[2088667.570042] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088697.509520] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088757.398578] 3w-9xxx: scsi4: WARNING: (0x06:0x0037): Character ioctl (0x108) timed out, resetting card.
[2088787.339071] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088817.279535] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088877.156559] 3w-9xxx: scsi4: WARNING: (0x06:0x0037): Character ioctl (0x108) timed out, resetting card.
[2088907.096072] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088937.036636] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2093229.150761] 3w-9xxx: scsi4: WARNING: (0x06:0x0037): Character ioctl (0x108) timed out, resetting card.
[2093259.091314] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2093289.030838] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sda 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
sdb 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
sdc 0,00 0,00 0,00 0,00 0,00 0,00 0,00 1,00 0,00 0,00 100,00
sdd 0,00 0,00 0,00 0,00 0,00 0,00 0,00 1,00 0,00 0,00 100,00
sde 0,00 0,00 0,00 0,00 0,00 0,00 0,00 3,00 0,00 0,00 100,00
sdg 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00
sdf 0,00 0,00 0,00 0,00 0,00 0,00 0,00 6,00 0,00 0,00 100,00
sdh 0,00 0,00 0,00 0,00 0,00 0,00 0,00 1,00 0,00 0,00 100,00
sdj 0,00 0,00 0,00 0,00 0,00 0,00 0,00 1,00 0,00 0,00 100,00
sdl 0,00 0,00 0,00 0,00 0,00 0,00 0,00 2,00 0,00 0,00 100,00
sdm 0,00 0,00 0,00 0,00 0,00 0,00 0,00 9,00 0,00 0,00 100,00
sdn 0,00 0,00 0,00 0,00 0,00 0,00 0,00 2,00 0,00 0,00 100,10
sdo 0,00 0,00 0,00 0,00 0,00 0,00 0,00 1,00 0,00 0,00 100,00
sdp 0,00 0,00 0,00 0,00 0,00 0,00 0,00 1,00 0,00 0,00 100,00
sdk 0,00 0,00 0,00 0,00 0,00 0,00 0,00 1,00 0,00 0,00 100,00
Если просто ребутнуть сервер,он зависнет во время инициализации контроллера, после BIOS. Помогает только колдребут.
Я так понимаю, сервис, который работает с дисками наткнулся на сломаный диск.Если я его пытаюсь убить получаю вот это:
user 1728 31.4 0.0 0 0 ? Zsl May09 11011:34 [storage_service] <defunct>
Вопрос такой, можно ли как-нибудь вернуть сервер к жизни без колдребута? Или убить Zsl процесс и принудительно закрыть все его открытые файлы?
P.S. Fedora 14,прошивка последняя.