LINUX.ORG.RU
ФорумAdmin

Сломался RAID после ввода диска в online статус

 ,


1

2

Коллеги, не хочу создавать дополнительный топик, есть сервер supermicro, на нем RAID контроллер LSIM5015, на нем RAID-1 из двух SSD Тошиба. Сегодня пришел алерт, что один диск вылетел и статус рейда деградация, сам диск был красным, щелкнули сделать его online, так как диски вылетали и раньше это не мешало ему встать обратно, сами вендоры так советуют, например IBM. В итоге сервер умер, на нем есть RAID, но диски пустые, что нет так было сделано?

IBM

Помнится, как-то давно пришлось иметь дело с полкой дисков promise. Все навернулось, списался со службой поддержки - проблему решили. Все начальники были довольны: простой системы и какие-то последующие расходы были обоснованы распечаткой диалога с саппортом promise.

Deleted
()
Ответ на: комментарий от ktk

Какие логи, говорю же сервер не грузится, отключил диски проверил, ничего не восстановимо, в итоге хорошо, что был фронтэнд и все быстро переустановили, не понятна сама ситуация

seminiva
() автор топика
Ответ на: комментарий от seminiva

отключил диски проверил, ничего не восстановимо, в итоге хорошо, что был фронтэнд и все быстро переустановили.

омг.

скажите что у вас за сервис? - чтоб я им никогда не пользовался.

ktk ★★★★
()

Немного оффтоп, но просто интересно что у людей на уме: зачем фронтенду хардварный рейд?

redixin ★★★★
()
Ответ на: комментарий от seminiva

В итоге пообщавшись с представителями AVAGo, сказали, что в таких случаях диск нужно либо затирать и удалять все разделы, проверять по иопсам, либо если он вылетел совсем только, что то сделать scan foreign configuration (http://pyatilistnik.org/vosstanavlivaem-lsi-raid-pri-zamene-diska/), и после чего конфигурация не рушится, а восстанавливается, но ктож знал-то.

seminiva
() автор топика
Ответ на: комментарий от seminiva

но ктож знал-то.

Вообще-то, это азы работы с рейдами. И знать их любой системный администратор просто обязан. Поднимать вручную упавший диск имеет смысл только в одном случае - когда из рейда вылетело сразу несколько дисков и данные недоступны. И то, поднимают их аккуратно и по одному. Во всех остальных случаях диск меняют на новый, который объявляют hotspare. После чего контроллер начинает ребилд массива.

Как вариант, можно действительно протестировать вылетевший диск и если он физически исправен, после обнуления можно его использовать для ребилда. Но тоже через объявление его hotspare.

Впрочем, многие современные контроллеры автоматом воспринимают любой подходящий чистый диск как hotspare и начинают перестройку массива...

Serge10 ★★★★★
()
Ответ на: комментарий от Serge10

Впрочем, многие современные контроллеры автоматом воспринимают любой подходящий чистый диск как hotspare и начинают перестройку массива...

Вообще-то, так делал даже древний Intel SRCU31. То есть, втыкаешь новый, либо обнулённый на место выпавшего, и ребилд начинается сам.

AS ★★★★★
()
Ответ на: комментарий от seminiva

По ссылке описывается случай, когда выдернули не тот диск. С этим все понятно и ожидаемо.

Но ты же тот диск выдернул, да? Не должно было быть такого. Что-то ты не договариваешь. С каким сообщением умер сервер? По-горячему менял или при выключенном сервере?

bigbit ★★★★★
()
Последнее исправление: bigbit (всего исправлений: 1)
Ответ на: комментарий от AS

Вообще-то, так делал даже древний Intel SRCU31. То есть, втыкаешь новый, либо обнулённый на место выпавшего, и ребилд начинается сам.

И что? А другие контроллеры (та же Areca, например) этого не делали. В любом случае, явное объявление диска hotspare - более правильный и универсальный, не зависящий от контроллера метод.

Serge10 ★★★★★
()
Ответ на: комментарий от Serge10

В любом случае, явное объявление диска hotspare - более правильный и универсальный

Если ты только что поставил HDD и полез в BIOS контроллера объявить его hotspare, с тем же успехом можешь его просто включить в массив сразу.

AS ★★★★★
()
Ответ на: комментарий от AS

Если ты только что поставил HDD и полез в BIOS контроллера объявить его hotspare, с тем же успехом можешь его просто включить в массив сразу.

Это справедливо только для простых конфигураций. А что делать, если в системе несколько деградированных массивов? И есть определенные приоритеты по их восстановлению (в первую очередь массив с критичными данными, потом уже остальные)?

Serge10 ★★★★★
()
Ответ на: комментарий от Serge10

А что делать, если в системе несколько деградированных массивов?

Если это полка (а иначе откуда несколько массивов?), то hot spare там просто должны быть. И, может быть, не в одном числе.

AS ★★★★★
()
Ответ на: комментарий от AS

Если это полка (а иначе откуда несколько массивов?)

Та же Supermicro продает обычные корпуса на 36 и 48 дисков. Ну и практически все современные контроллеры позволяют собирать несколько массивов.

то hot spare там просто должны быть.

Тут Вы, безусловно, правы, только вот на практике, увы, бывает по-всякому. Мне приходилось встречать RAID0 массивы из десятка дисков с критичными данными, какие уж тут hot spare...

Serge10 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.