периодически отваливаются жёсткие диски

1

2

Есть сервер с несколькими винтами Seagate ST3000DM001 сомнительного качества, тем не менее поначалу работавший стабильно. На сервере крутится Citrix XenServer с десятком Windows виртуалок, которые распределены по 3 дискам (образы хранятся в LVM). В системе также имеется 4 диск, который довольно быстро вышел из строя с симптомами

183 Runtime_Bad_Block       0x0032   099   099   000    Old_age   Always       -       1
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       305
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       65537
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       8
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       8

и сейчас никак не используется.

Периодически, раз в неделю-две-три, случается ситуация, когда все винты разом отваливаются. Хост-система при этом продолжает работать, хотя смонтированные разделы становятся недоступны - «Input/output error». По моим наблюдениям падения случаются не в то время, когда нагрузка на I/O является высокой, а скорее наоборот - в моменты наибольшего простоя (нерабочее время).

Если после случившегося обвала открыть консоль с логом, то там бесконечно бегут сообщения

end_request: I/O error, dev sd*, sector ******

в которых упоминаются все реально используемые диски и рандомные сектора.

После хард резета всё возвращается на места. Проблем с детектом дисков не наблюдается. У всех винтов по мере эксплуатации SMART аттрибут Runtime_Bad_Block стал ненулевым, но пока исчисляется единицами. Что выглядит откровенно подозрительно, так это соотношение Start_Stop_Count и Power-Off_Retract_Count

  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       61
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       44

  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       77
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       45

  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       62
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       45

Фрагмент из /proc/kmsg, сохранённый в прошлый раз: http://pastebin.com/UNp8qtZU

В той же стойке работают ещё 2 сервера (Debian+Xen и Citrix XenServer) с такими же винтами, там проблем не наблюдается.

Ссылка

←	Где вы носите планшеты?

ЗВУК через SP-DIF заикается

→

badblocks/mhdd
что за контроллер ?
меняй кабели для начала.

handbrake ★★★
(10.03.14 18:49:09 MSK)

Ссылка

в логах не виэжу попыток снизить скорость интерфейса - их точно нет ?
по хорошему, не помешает полный греп по sd* за минусом всего к дискам не относящегося.

handbrake ★★★
(10.03.14 18:51:55 MSK)

Ответ на: комментарий от handbrake 10.03.14 18:51:55 MSK

их точно нет ?

Пока удалось выцепить только текущие сообщения. Что именно происходит в самом начале не могу сказать. Попробую настроить репликацию логов.

по хорошему, не помешает полный греп по sd*

Запустил dd if=/dev/sd* of=/dev/null для одного из дисков, но, думаю, это ничего не покажет.

Проблема очень похожа на эту http://www.opennet.ru/openforum/vsluhforumID1/92306.html или даже на эту Debian Bug report logs - #625922: SATA devices get reset without real hardware failure. Может быть связано с конкретными моделями Seagate и/или версией прошивки.

frozen_twilight ★★
(10.03.14 20:25:58 MSK) автор топика

Ответ на: комментарий от frozen_twilight 10.03.14 20:25:58 MSK

Вот как это выглядит на графике http://i.imgur.com/kE8zxWH.png

В 12:51 начался обвал. В 17:16 сделан резет.

frozen_twilight ★★
(10.03.14 20:41:57 MSK) автор топика

Ссылка

Ответ на: комментарий от frozen_twilight 10.03.14 20:25:58 MSK

Попробую настроить репликацию логов.

Тебе нужен dmesg, соответственно использовать следует netconsole.

Gotf ★★★
(10.03.14 20:44:07 MSK)

Ссылка

Электроника - наука о контактах. Выключи все, разбери диски, пусть статика рассеется. Проверь плотность контактов кабелей с винтами, по возможности замени, но не бери слишком тонкие и длинные, могут быть наводки. Хотя на кабели косвенно указывает смарт-параметр с CRC Errors (id не помню).

Убери все винты с переназначенными или нестабильными секторами, на время, для теста. Кривой контроллер может подвешиваться от одного винта, особенно если нету ERC/TLER.

Проверь бэдблоки на винтах поштучно, может понадобиться отдельный комп.

Вот после этого можно ковырять программную часть.

Lordwind ★★★★★
(10.03.14 20:58:33 MSK)

Ответ на: комментарий от Lordwind 10.03.14 20:58:33 MSK

Хотя на кабели косвенно указывает смарт-параметр с CRC Errors

Вот с ним то всё в порядке, = 0. Кабели никто не трогал с момента установки.

Убери все винты с переназначенными или нестабильными секторами, на время, для теста

Оперативно потестить с другими дисками нет возможности, поскольку это далёкий ДЦ. Замена, конечно, планируется, как минимум из-за увеличивающегося Runtime_Bad_Block и низкой производительности в параллельных операциях (десктопная же серия).

frozen_twilight ★★
(10.03.14 21:09:47 MSK) автор топика