LINUX.ORG.RU
ФорумAdmin

контроллер LSI 9650 виснет.

 ,


0

1

Доброго дня!

Имеется сервер с контроллером LSI 9650,иногда он впадает в предсмертное состояние.В dmesg:

[2088308.284824] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088338.224342] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088398.101369] 3w-9xxx: scsi4: WARNING: (0x06:0x0037): Character ioctl (0x108) timed out, resetting card.
[2088428.041885] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088457.982411] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088517.872416] 3w-9xxx: scsi4: WARNING: (0x06:0x0037): Character ioctl (0x108) timed out, resetting card.
[2088547.812936] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088577.752456] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088637.629508] 3w-9xxx: scsi4: WARNING: (0x06:0x0037): Character ioctl (0x108) timed out, resetting card.
[2088667.570042] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088697.509520] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088757.398578] 3w-9xxx: scsi4: WARNING: (0x06:0x0037): Character ioctl (0x108) timed out, resetting card.
[2088787.339071] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088817.279535] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088877.156559] 3w-9xxx: scsi4: WARNING: (0x06:0x0037): Character ioctl (0x108) timed out, resetting card.
[2088907.096072] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2088937.036636] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2093229.150761] 3w-9xxx: scsi4: WARNING: (0x06:0x0037): Character ioctl (0x108) timed out, resetting card.
[2093259.091314] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
[2093289.030838] 3w-9xxx: scsi4: ERROR: (0x06:0x0036): Response queue (large) empty failed during reset sequence.
iostat -dmx:
Device:         rrqm/s   wrqm/s     r/s     w/s    rMB/s    wMB/s avgrq-sz avgqu-sz   await  svctm  %util
sda               0,00     0,00    0,00    0,00     0,00     0,00     0,00     0,00    0,00   0,00   0,00
sdb               0,00     0,00    0,00    0,00     0,00     0,00     0,00     0,00    0,00   0,00   0,00
sdc               0,00     0,00    0,00    0,00     0,00     0,00     0,00     1,00    0,00   0,00 100,00
sdd               0,00     0,00    0,00    0,00     0,00     0,00     0,00     1,00    0,00   0,00 100,00
sde               0,00     0,00    0,00    0,00     0,00     0,00     0,00     3,00    0,00   0,00 100,00
sdg               0,00     0,00    0,00    0,00     0,00     0,00     0,00     0,00    0,00   0,00   0,00
sdf               0,00     0,00    0,00    0,00     0,00     0,00     0,00     6,00    0,00   0,00 100,00
sdh               0,00     0,00    0,00    0,00     0,00     0,00     0,00     1,00    0,00   0,00 100,00
sdj               0,00     0,00    0,00    0,00     0,00     0,00     0,00     1,00    0,00   0,00 100,00
sdl               0,00     0,00    0,00    0,00     0,00     0,00     0,00     2,00    0,00   0,00 100,00
sdm               0,00     0,00    0,00    0,00     0,00     0,00     0,00     9,00    0,00   0,00 100,00
sdn               0,00     0,00    0,00    0,00     0,00     0,00     0,00     2,00    0,00   0,00 100,10
sdo               0,00     0,00    0,00    0,00     0,00     0,00     0,00     1,00    0,00   0,00 100,00
sdp               0,00     0,00    0,00    0,00     0,00     0,00     0,00     1,00    0,00   0,00 100,00
sdk               0,00     0,00    0,00    0,00     0,00     0,00     0,00     1,00    0,00   0,00 100,00
tw_cli утилита перестает работать:

Если просто ребутнуть сервер,он зависнет во время инициализации контроллера, после BIOS. Помогает только колдребут.

Я так понимаю, сервис, который работает с дисками наткнулся на сломаный диск.Если я его пытаюсь убить получаю вот это:

user        1728 31.4  0.0      0     0 ?        Zsl  May09 11011:34 [storage_service] <defunct>

Вопрос такой, можно ли как-нибудь вернуть сервер к жизни без колдребута? Или убить Zsl процесс и принудительно закрыть все его открытые файлы?

P.S. Fedora 14,прошивка последняя.

Это проблема контроллера, в операционке ты её не вылечишь. Пиши производителю, перепрошивай контроллер

no-dashi ★★★★★
()

| Fedora 14,прошивка последняя.

какой драйвер и какая версия ?

если в ядре драйвер, то версия какая ?

прошивка последняя это какая ?

У меня на Gentoo LSI SAS 9201-16i HBA, жалоб нет, хотя и греется адски

http://www.lsi.com/channel/russia/products/storagecomponents/Pages/LSISAS9201...

в ответ на lspci отзывается как:

Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2116 PCI-Express Fusion-MPT SAS-2 [Meteor] (rev 02)

Deleted
()
Ответ на: комментарий от Deleted

lspci:

03:00.0 RAID bus controller: 3ware Inc 9650SE SATA-II RAID PCIe (rev 01)

[root@sts-05 3ware]# modinfo 3w_9xxx
filename:       /lib/modules/2.6.35.14-106.fc14.x86_64/kernel/drivers/scsi/3w-9xxx.ko
version:        2.26.02.014
license:        GPL
description:    3ware 9000 Storage Controller Linux Driver
author:         LSI
srcversion:     FF0EBF0AA9C547145B7633F
alias:          pci:v000013C1d00001005sv*sd*bc*sc*i*
alias:          pci:v000013C1d00001004sv*sd*bc*sc*i*
alias:          pci:v000013C1d00001003sv*sd*bc*sc*i*
alias:          pci:v000013C1d00001002sv*sd*bc*sc*i*
depends:        
vermagic:       2.6.35.14-106.fc14.x86_64 SMP mod_unload 
parm:           use_msi:Use Message Signaled Interrupts.  Default: 0 (int)

controller firmware:

FE9X 4.10.00.027

Ядро:

[root@sts-05 3ware]# uname -a
Linux sts-05 2.6.35.14-106.fc14.x86_64 #1 SMP Wed Nov 23 13:07:52 UTC 2011 x86_64 x86_64 x86_64 GNU/Linux

Точно такое же поведение было замеченно на других точно таких же контроллерах. Ещё грешу на диски WDC WD25EZRS-00J99B0 т.к. в других серверах точно такие же контроллеры, но диски Seagate,пока таких пробелм не замеченно.

Funny_sailor
() автор топика
Ответ на: комментарий от Funny_sailor

Смотри диски в списке совместимости контроллера т.к. это не совсем LSI, а купленный ими давно триваре, по сути совсем разные девайсы.

blind_oracle ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.