LINUX.ORG.RU

Debian Wheezy amd64 + Supermicro H8DG6-F + Adaptec ASA-71605H + Chenbro RM23612M2-L + 12 шпинделей = непонятное поведение

 ,


0

1

4 из 12 шпинделей - Seagate ST1000NM0011
8 из 12 шпинделей - Seagate ST1000NM0033
Все шпиндели разбиты на одинаковые разделы с помощью sfdisk
Небольшая предыстория. Было некоторое, другое, железо и были 4 шпинделя, которые ST1000NM0011. На тот момент было следующее «разбиение»:
/boot на RAID1 4 из 4
/ на RAID10 4 из 4
/storage на RAID5 4 из 4
Потом я заменил железо на указанное в шапке и добавил 8 шпинделей. На текущий момент картина «разбиения» выглядит следующим образом:
/boot на RAID1 4 из 12 + спейры
/ на RAID10 4 из 12 + спейры
/storage на RAID6 10 из 12 + 2 спейра
Сейчас я готовлюсь к переделке «корневого» массива на схему RAID10 на 10 из 12 + 2 спейра, но вопрос не в этом. У меня возникли проблемы с отвалами дисков и еще, кажется, назначение блочных устройств в системе «гуляет» от загрузки к загрузке.


Подробнее об «отвале». Скорее, это можно назвать залипанием. Конкретно сейчас речь идёт о /dev/sdg. Блочное устройство видно в системе. Лампочка активности в корзине горит постоянно. smartcl и shred сыпят ошибки на нём. От массива диск отваливается. В сислоге следующее

Dec 18 12:32:44 fxsrv kernel: [84182.232947] sd 0:0:6:0: [sdg] Unhandled error code Dec 18 12:32:44 fxsrv kernel: [84182.232954] sd 0:0:6:0: [sdg] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK Dec 18 12:32:44 fxsrv kernel: [84182.232961] sd 0:0:6:0: [sdg] CDB: Read(10): 28 00 00 00 00 00 00 00 20 00 Dec 18 12:32:44 fxsrv kernel: [84182.232974] end_request: I/O error, dev sdg, sector 0 Dec 18 12:32:44 fxsrv kernel: [84182.232981] Buffer I/O error on device sdg, logical block 0 Dec 18 12:32:44 fxsrv kernel: [84182.232990] Buffer I/O error on device sdg, logical block 1 Dec 18 12:32:44 fxsrv kernel: [84182.232995] Buffer I/O error on device sdg, logical block 2 Dec 18 12:32:44 fxsrv kernel: [84182.232999] Buffer I/O error on device sdg, logical block 3 Dec 18 12:32:44 fxsrv kernel: [84182.233061] sd 0:0:6:0: [sdg] Unhandled error code Dec 18 12:32:44 fxsrv kernel: [84182.233068] sd 0:0:6:0: [sdg] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK Dec 18 12:32:44 fxsrv kernel: [84182.233075] sd 0:0:6:0: [sdg] CDB: Read(10): 28 00 00 00 00 00 00 00 08 00 Dec 18 12:32:44 fxsrv kernel: [84182.233089] end_request: I/O error, dev sdg, sector 0 Dec 18 12:32:44 fxsrv kernel: [84182.233095] Buffer I/O error on device sdg, logical block 0 Dec 18 12:32:44 fxsrv kernel: [84182.233188] sd 0:0:6:0: [sdg] Unhandled error code
Пока могу на 100% заявить, что перезагрузка хост-системы проблему устраняет. На текущий момент видел такое уже 3 раза точно. Куда копать? Это первый вопрос


Далее, есть второй вопрос. У корпуса в корзине, судя по всему, три строчки по 4 диска. Вероятно, есть прямая связь с количеством устройств, подключаемых одним sas-кабелем. На HBA 4 коннектора, по 4 диска на каждый. Подключено, соответственно, 3 из 4. Разветвителей SAS, как они там называются, нет. По крайней мере, я не ставил. Так вот, судя по активности индикаторов, корень системы живёт на первой строчке корзины. Потом у меня сбойнул /dev/sde и постоянно горел индикатор на первом слева винте средней строчки. То есть, вроде всё нормально, порядок «сверху вниз, слева направо». Сбойнул у меня этот sde и я принял решение ребутнуть машину. И тут, внимание, началось шоу. Сейчас вот сбойнул sdg и горит при этом индикатор на НИЖНЕЙ строчке винтов. НИЖНЕЙ!!! А ведь при указанном порядке это должен быть третий диск СРЕДНЕЙ полки, никак не нижней. Внимание, вопрос. Дебиан именует диски на постоянно основе или как получится? Я вот сейчас вспоминаю, как пытался пару лет назад поставить wheezy на рабочу машину, с котороый пишу, и не смог. Тогда я этого не смог. Потому что при каждой перезагрузке была чехарда со шпинделями. Убунта встала без вопросов, к слову. Так вы мне скажите, это что, нормальное поведение для дебиана? Или что? Как мне с этим жить? Что с этим делать? Это вообще нормально?


Направьте, пожалуйста.
Спасибо.
ЗЫ. LVM нет.

★★★★★

Последнее исправление: targitaj (всего исправлений: 5)

Я использую диски и разделы по UUID. Поэтому неважно как они называются в данный момент. А так, вроде, должен на постоянной основе формировать. По номерам портов на материнке. sdg - на замену. Также такое бывает когда шлейф пошаливает. Но т.к. после ребута у тебя всё восстанавливается, то часто бывает, что винты какое-то время после ребута работают нормально дохлые.

turtle_bazon ★★★★★
()

Внимание, вопрос. Дебиан именует диски на постоянно основе или как получится?

Содержимое /dev/disk/by-path/ не помогает?

AITap ★★★★★
()

Прогоняю шредом пятый из 8 новых шпинделей. Всё нормально пока. atop показывает avio менее 4 мс. Сдается мне, дело в драйвере HBA. Что-то происходит при множественном обращении к некоторому количеству дисков сразу.

Ребята, ну какие UUID/fstab. Диски в МАССИВАХ.

targitaj ★★★★★
() автор топика

Приплыли. atop показывает avio 10-15 мс на одном из старых четырёх шпинделей. На ровном месте. Ничего в логах не нашел. Кошмар. Вчера весь день гонял шредом новые шпиндели - всё было в порядке. Таки это контреллер/драйвер? Что возможно сделать?

echo “- – -” > /sys/class/scsi_host/host#/scan

на рабочей машине к чему приведет?

targitaj ★★★★★
() автор топика

Показания avio нормализовались. Весь день один из старых шпинделей показывал 10-15 мс. Сейчас рррррраз - и норма. Нда... Чего было-то?

targitaj ★★★★★
() автор топика

Так, если мне не изменяет память, то вчера «ненормальность» была с sdc. Вот сейчас внезапно появилась такая же «ненормальность» на sdd. Делаем ставки, появится ли такое завтра на sde. Сдается мне, контроллер гоняет чем-то винты по-очереди.

targitaj ★★★★★
() автор топика

В общем, в один волшебный момент система просто встала раком. Все диски в порядке. Изъятие HBA и переключение винтов на набортный sata контроллер устранило проблему. HBA либо бракованный либо прошивка чудит.

targitaj ★★★★★
() автор топика

Что интересно, на набортном SATA-контроллере утилита atop тоже показывает периодическую непонятную нагрузку на дисках.

DSK | sda | | busy 89% | | read 3 | write 985 | | KiB/r 64 | | KiB/w 2 | | MBr/s 0.02 | MBw/s 0.21 | | avq 1.33 | | avio 9.48 ms |

Показатель avio болтается в районе 10 мс. Такое наблюдается некоторое время, потом исчезает. Нормальное значение - около 1-2 мс. И появляется на другом диске, через какое-то время. Стало быть, от контроллера это не зависит. Видимо, это какие-то внутренние прибабази у винтов. Может быть, самотестирование или типа того. А в зависонах был виноват умиращий HBA, получается.

targitaj ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.