LINUX.ORG.RU

периодически отваливаются жёсткие диски

 , ,


1

2

Есть сервер с несколькими винтами Seagate ST3000DM001 сомнительного качества, тем не менее поначалу работавший стабильно. На сервере крутится Citrix XenServer с десятком Windows виртуалок, которые распределены по 3 дискам (образы хранятся в LVM). В системе также имеется 4 диск, который довольно быстро вышел из строя с симптомами

183 Runtime_Bad_Block       0x0032   099   099   000    Old_age   Always       -       1
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       305
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       65537
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       8
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       8
и сейчас никак не используется.

Периодически, раз в неделю-две-три, случается ситуация, когда все винты разом отваливаются. Хост-система при этом продолжает работать, хотя смонтированные разделы становятся недоступны - «Input/output error». По моим наблюдениям падения случаются не в то время, когда нагрузка на I/O является высокой, а скорее наоборот - в моменты наибольшего простоя (нерабочее время).

Если после случившегося обвала открыть консоль с логом, то там бесконечно бегут сообщения

end_request: I/O error, dev sd*, sector ******
в которых упоминаются все реально используемые диски и рандомные сектора.

После хард резета всё возвращается на места. Проблем с детектом дисков не наблюдается. У всех винтов по мере эксплуатации SMART аттрибут Runtime_Bad_Block стал ненулевым, но пока исчисляется единицами. Что выглядит откровенно подозрительно, так это соотношение Start_Stop_Count и Power-Off_Retract_Count

  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       61
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       44

  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       77
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       45
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       62
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       45

Фрагмент из /proc/kmsg, сохранённый в прошлый раз: http://pastebin.com/UNp8qtZU

В той же стойке работают ещё 2 сервера (Debian+Xen и Citrix XenServer) с такими же винтами, там проблем не наблюдается.

★★

Последнее исправление: CYB3R (всего исправлений: 2)

badblocks/mhdd
что за контроллер ?
меняй кабели для начала.

handbrake ★★★
()

в логах не виэжу попыток снизить скорость интерфейса - их точно нет ?
по хорошему, не помешает полный греп по sd* за минусом всего к дискам не относящегося.

handbrake ★★★
()
Ответ на: комментарий от handbrake

их точно нет ?

Пока удалось выцепить только текущие сообщения. Что именно происходит в самом начале не могу сказать. Попробую настроить репликацию логов.

по хорошему, не помешает полный греп по sd*

Запустил dd if=/dev/sd* of=/dev/null для одного из дисков, но, думаю, это ничего не покажет.

Проблема очень похожа на эту http://www.opennet.ru/openforum/vsluhforumID1/92306.html или даже на эту Debian Bug report logs - #625922: SATA devices get reset without real hardware failure. Может быть связано с конкретными моделями Seagate и/или версией прошивки.

frozen_twilight ★★
() автор топика
Ответ на: комментарий от frozen_twilight

Попробую настроить репликацию логов.

Тебе нужен dmesg, соответственно использовать следует netconsole.

Gotf ★★★
()

Электроника - наука о контактах. Выключи все, разбери диски, пусть статика рассеется. Проверь плотность контактов кабелей с винтами, по возможности замени, но не бери слишком тонкие и длинные, могут быть наводки. Хотя на кабели косвенно указывает смарт-параметр с CRC Errors (id не помню).

Убери все винты с переназначенными или нестабильными секторами, на время, для теста. Кривой контроллер может подвешиваться от одного винта, особенно если нету ERC/TLER.

Проверь бэдблоки на винтах поштучно, может понадобиться отдельный комп.

Вот после этого можно ковырять программную часть.

Lordwind ★★★★★
()
Ответ на: комментарий от Lordwind

Хотя на кабели косвенно указывает смарт-параметр с CRC Errors

Вот с ним то всё в порядке, = 0. Кабели никто не трогал с момента установки.

Убери все винты с переназначенными или нестабильными секторами, на время, для теста

Оперативно потестить с другими дисками нет возможности, поскольку это далёкий ДЦ. Замена, конечно, планируется, как минимум из-за увеличивающегося Runtime_Bad_Block и низкой производительности в параллельных операциях (десктопная же серия).

frozen_twilight ★★
() автор топика
Ответ на: комментарий от frozen_twilight

sensors и если в норме - проси замену материнки/сервера

handbrake ★★★
()
Ответ на: комментарий от anonymous

Вбивал модель и серийники на сайте Seagate, не выдавало, что есть апдейты.

frozen_twilight ★★
() автор топика
Ответ на: комментарий от handbrake

а что у супермикры это какой-то известный косяк?

Lordwind ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.