Всем привет. Сегодня пришло от мониторинга, что умерла продакшен система. Беглый осмотр выявил, что пропал 1 раздел. При глубоком осмотре выявились непонятки:
array B (SATA, Unused Space: 0 MB)
logicaldrive 2 (1.8 TB, RAID 5, Failed)
physicaldrive 3C:1:5 (port 3C:box 1:bay 5, SATA, 1 TB, OK)
physicaldrive 3C:1:6 (port 3C:box 1:bay 6, SATA, 1 TB, OK)
physicaldrive 3C:1:7 (port 3C:box 1:bay 7, SATA, 1 TB, OK)
physicaldrive 3C:1:8 (port 3C:box 1:bay 8, SATA, 1 TB, OK, spare)
Т.е. раздел исчез, в тулзе hpacucli помечен как Failed, но все диски вроде как в отличном состоянии. iLO ничего нового не показал, кроме 2х ошибок в одно и то же время:
POST Error: 1792-Drive Array Reports Valid Data Found in Array Accelerator
POST Error: 1779-Slot X Drive Array - Replacement drive(s) detected OR previously failed drive(s) now appear to be operational.
Статус АКБ - ОК. Статус контроллера - тоже. Т.е. все вроде как отлично, но raid сбойный. Как его починить? На дисках важные данные, физического доступа к серверу нет, rescan пробовал сделать - толку ноль. Кто-то сталкивался? Контроллер Smart Array P410i.
РЕШЕНО. Оказывается, у данного контроллера есть бага в прошивке, надо обновиться на последнюю. На данный момент проблема была решена переподключением сбойного logical drive посредством команды:
ctrl slot=0 ld 2 modify reenable forced
Узнать слот можно при выхлопе
hpacucli ctrl all show status
Smart Array P410i in Slot 0 (Embedded)
Controller Status: OK
Cache Status: OK
Battery/Capacitor Status: OK