LINUX.ORG.RU

adaptec - пропал логический диск.

 


0

2

Приветствую, комрады!
Имеем аппаратный контроллер Adaptec 51645. На нем был собран массив raid-10 из 6 дисков. При попытке расширить его с помощью arcconf modify на еще 2 свежедобавленных диска сервер ушел в аут. После перезагрузки логический диск пропал, все физические диски видны и в нормальном состоянии.
Имеет кто опыт? Данным капец или можно восстановить логический диск?

Загрузитесь с live, попробуйте из утилиты глянуть состояние массива. Возможно можно ему сделать force online.
Но если есть деньги и данные важны, то обратитесь в фирму по восстановлению данных.

Deleted
()
Ответ на: комментарий от Deleted

Нет, важных данных нет, но планируются. И такое поведения контроллера меня напрягает) [br] Причем массив реально будет достаточно большой и нагруженный и бекапить его всего будет капец как не с руки.

lasthappy
() автор топика
Последнее исправление: lasthappy (всего исправлений: 1)
Ответ на: комментарий от lasthappy

У меня в фирме 90% железных контроллеров adaptec и я с полной уверенностью могу сказать, что это эталон дна. Периодически подкидывает сюрпризы.
Можете например купить нормальный hba контроллер и собрать массив на zfs, если скорость записи не очень критична. Для бэкапов использовать снапшоты и репликацию zfs.
Можете посмотреть что такое ceph, если ваше хранилище должно активно расти.

Deleted
()
Ответ на: комментарий от lasthappy

Прошивка то хоть последняя на адаптеке? Там, в прошивках аппаратных райдов, в чейнджлоги страшно смотреть, «а как оно до этого работало то???»

anonymous
()

А сколько ты ждал перед тем, как перезагрузить его?

LA мог подскочить из-за большого объема ввода/вывода.

Ты же не думаешь, что расширение массива это мгновенная операция? Ему ведь надо переразмазать данные по всем дисками.

Хотя на нормальном контроллере операция должна была продолжиться и после перезагрузки с того же места. Делал такой тест, но это был контроллер с батарейкой. Может, его надо как-то пнуть...

bigbit ★★★★★
()
Последнее исправление: bigbit (всего исправлений: 1)
Ответ на: комментарий от lasthappy

обычно при этом дикая ругань в dmesg.

anonymous
()
Ответ на: комментарий от Deleted

за состоянием схд нужно следить:

  1. температура контроллера, дисков, бэкплейна очень важна
  2. не должно быть failed stripes (проводить verify_fix)
  3. следить за состоянием bbu (arcconfig getconfig 1 ad)
anonymous
()
Ответ на: комментарий от bigbit

перед расширением массива обязательно делать бэкап и verify

anonymous
()
Ответ на: комментарий от lasthappy

если вы не будете бэкапить данные, без разницы на чем вы построите массив

anonymous
()

и Adaptec 51645 - это EOL. Ни его, ни батарейку вы не купите. Уходите с него.

anonymous
()
Ответ на: комментарий от anonymous

arcconfig getconfig 1 ad

вспомнил хохму, читал на форуме что на каком-то адаптеке при проверке bbu батаеря отключается, а кэш остаётся активным. очень удобное решение для потери данных.

Deleted
()
Ответ на: комментарий от anonymous

И кстати о совместимости - переезжал с неподдерживаемого контроллера на новый - из 3 массивов один помер с концами, благо были актуальные бэкапы.

Deleted
()

Посмотри состояние контроллера и его логи.
Может быть, логический диск не доступен потому, что операция расширения продолжилась после перезагрузки и до сих пор идет.

bigbit ★★★★★
()
Ответ на: комментарий от Deleted

возможно какой-то старый баг. Чтобы подобного не было выставляется Write-cache setting: On when protected by battery/ZMM

anonymous
()
Ответ на: комментарий от ZenitharChampion

Кстати есть у меня raid10 на smr тошибах с адаптеком. На некоторых файлах зависания по 10 минут. Veryfy with fix сообщает, что всё гуд, тест фс сообщает что всё гуд. В принципе делать массив на десктоп дисках - провальная затея, но начальство хотело сэкономить, а тут еще и smr диски в итоге попались. На момент покупки производитель не сообщал что это смр.

Deleted
()
Ответ на: комментарий от bigbit

Ну, у меня был 10 рейд. Размазывание там вроде не происходит так жестко. Не должен был набрать очередь ввода-вывода так жестко. Плюс там не было так много уж операций на данный момент. После отправки команды на расширение массива контроллер перестал отвечать и посмотреть статус исполнения и состояние массива я не мог. До перезагрузки)
После перезагрузки смог, но уже не на что было смотреть - логического диска уже не было (массива) и в задачах тоже ничего не было.

lasthappy
() автор топика
Ответ на: комментарий от Deleted

Да, с SMR прямо скандал был, когда вся эта каша всплыла. Вроде как в штатах журналисты добились, чтобы производители опубликовали модели с SMR. WD выложил список моделей с SMR.

lasthappy
() автор топика
Ответ на: комментарий от lasthappy

Четность не считается, да. Но все равно много времени нужно, чтобы информацию на всех дисках перетряхнуть.

Вот на сайте Adaptec написано про «Do NOT reboot»:

Attention: There will be a significant impact on system performance during array expansion. The process may take from hours to days to finish depending on the array and drive size. Please wait for the process to finish completely. Do NOT reboot / shutdown / power off the system while the process is running.

https://ask.adaptec.com/app/answers/detail/a_id/3883/~/how-to-use-online-capa...

bigbit ★★★★★
()
Последнее исправление: bigbit (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.