Сломался RAID после ввода диска в online статус

1

2

Коллеги, не хочу создавать дополнительный топик, есть сервер supermicro, на нем RAID контроллер LSIM5015, на нем RAID-1 из двух SSD Тошиба. Сегодня пришел алерт, что один диск вылетел и статус рейда деградация, сам диск был красным, щелкнули сделать его online, так как диски вылетали и раньше это не мешало ему встать обратно, сами вендоры так советуют, например IBM. В итоге сервер умер, на нем есть RAID, но диски пустые, что нет так было сделано?

Ссылка

←	заменить значение bash

Наверное, самая избитая тема. Консольный мониторинг трафика.

→

что нет так было сделано?

всё? где логи? где SMART?

ktk ★★★★
(20.06.18 10:20:58 MSK)

IBM

Помнится, как-то давно пришлось иметь дело с полкой дисков promise. Все навернулось, списался со службой поддержки - проблему решили. Все начальники были довольны: простой системы и какие-то последующие расходы были обоснованы распечаткой диалога с саппортом promise.

Deleted
(20.06.18 10:35:33 MSK)

Ссылка

Ответ на: комментарий от ktk 20.06.18 10:20:58 MSK

Какие логи, говорю же сервер не грузится, отключил диски проверил, ничего не восстановимо, в итоге хорошо, что был фронтэнд и все быстро переустановили, не понятна сама ситуация

seminiva
(20.06.18 13:30:14 MSK) автор топика

Ответ на: комментарий от seminiva 20.06.18 13:30:14 MSK

отключил диски проверил, ничего не восстановимо, в итоге хорошо, что был фронтэнд и все быстро переустановили.

омг.

скажите что у вас за сервис? - чтоб я им никогда не пользовался.

ktk ★★★★
(20.06.18 15:20:19 MSK)

Немного оффтоп, но просто интересно что у людей на уме: зачем фронтенду хардварный рейд?

redixin ★★★★
(20.06.18 15:25:32 MSK)

Ссылка

Ответ на: комментарий от ktk 20.06.18 15:20:19 MSK

У программистов 1С там был какой-то фронтэнд, хорошо хоть БД в другом месте были.

seminiva
(20.06.18 15:52:30 MSK) автор топика

Ответ на: комментарий от seminiva 20.06.18 15:52:30 MSK

В итоге пообщавшись с представителями AVAGo, сказали, что в таких случаях диск нужно либо затирать и удалять все разделы, проверять по иопсам, либо если он вылетел совсем только, что то сделать scan foreign configuration (http://pyatilistnik.org/vosstanavlivaem-lsi-raid-pri-zamene-diska/), и после чего конфигурация не рушится, а восстанавливается, но ктож знал-то.

seminiva
(20.06.18 16:01:36 MSK) автор топика

Ответ на: комментарий от seminiva 20.06.18 16:01:36 MSK

но ктож знал-то.

Вообще-то, это азы работы с рейдами. И знать их любой системный администратор просто обязан. Поднимать вручную упавший диск имеет смысл только в одном случае - когда из рейда вылетело сразу несколько дисков и данные недоступны. И то, поднимают их аккуратно и по одному. Во всех остальных случаях диск меняют на новый, который объявляют hotspare. После чего контроллер начинает ребилд массива.

Как вариант, можно действительно протестировать вылетевший диск и если он физически исправен, после обнуления можно его использовать для ребилда. Но тоже через объявление его hotspare.

Впрочем, многие современные контроллеры автоматом воспринимают любой подходящий чистый диск как hotspare и начинают перестройку массива...

Serge10 ★★★★★
(22.06.18 00:33:03 MSK)

Ответ на: комментарий от Serge10 22.06.18 00:33:03 MSK

Впрочем, многие современные контроллеры автоматом воспринимают любой подходящий чистый диск как hotspare и начинают перестройку массива...

Вообще-то, так делал даже древний Intel SRCU31. То есть, втыкаешь новый, либо обнулённый на место выпавшего, и ребилд начинается сам.

AS ★★★★★
(22.06.18 00:47:23 MSK)

Ответ на: комментарий от seminiva 20.06.18 16:01:36 MSK

По ссылке описывается случай, когда выдернули не тот диск. С этим все понятно и ожидаемо.

Но ты же тот диск выдернул, да? Не должно было быть такого. Что-то ты не договариваешь. С каким сообщением умер сервер? По-горячему менял или при выключенном сервере?

bigbit ★★★★★
(22.06.18 11:10:40 MSK)
Последнее исправление: bigbit 22.06.18 11:10:50 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от AS 22.06.18 00:47:23 MSK

Вообще-то, так делал даже древний Intel SRCU31. То есть, втыкаешь новый, либо обнулённый на место выпавшего, и ребилд начинается сам.

И что? А другие контроллеры (та же Areca, например) этого не делали. В любом случае, явное объявление диска hotspare - более правильный и универсальный, не зависящий от контроллера метод.

Serge10 ★★★★★
(06.07.18 22:18:57 MSK)

Ответ на: комментарий от Serge10 06.07.18 22:18:57 MSK

В любом случае, явное объявление диска hotspare - более правильный и универсальный

Если ты только что поставил HDD и полез в BIOS контроллера объявить его hotspare, с тем же успехом можешь его просто включить в массив сразу.

AS ★★★★★
(07.07.18 09:27:12 MSK)

Ответ на: комментарий от AS 07.07.18 09:27:12 MSK

Если ты только что поставил HDD и полез в BIOS контроллера объявить его hotspare, с тем же успехом можешь его просто включить в массив сразу.

Это справедливо только для простых конфигураций. А что делать, если в системе несколько деградированных массивов? И есть определенные приоритеты по их восстановлению (в первую очередь массив с критичными данными, потом уже остальные)?

Serge10 ★★★★★
(07.07.18 21:06:09 MSK)

Ответ на: комментарий от Serge10 07.07.18 21:06:09 MSK

А что делать, если в системе несколько деградированных массивов?

Если это полка (а иначе откуда несколько массивов?), то hot spare там просто должны быть. И, может быть, не в одном числе.

AS ★★★★★
(08.07.18 11:50:17 MSK)

Ответ на: комментарий от AS 08.07.18 11:50:17 MSK

Если это полка (а иначе откуда несколько массивов?)

Та же Supermicro продает обычные корпуса на 36 и 48 дисков. Ну и практически все современные контроллеры позволяют собирать несколько массивов.

то hot spare там просто должны быть.

Тут Вы, безусловно, правы, только вот на практике, увы, бывает по-всякому. Мне приходилось встречать RAID0 массивы из десятка дисков с критичными данными, какие уж тут hot spare...

Serge10 ★★★★★
(08.07.18 21:44:23 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	заменить значение bash

Admin

Наверное, самая избитая тема. Консольный мониторинг трафика.

→

Похожие темы