LINUX.ORG.RU

История о том что нужно менять диски вовремя или собирайте сервачок на норм железе

 , ,


0

1

Когда-то давно установил дома на тест данную интересную систему. Всё настроил, всё хорошо. С год назад стали прилетать алерты на почту, что на одном из дисков в raid 1 появились bad сектора. Но я их благополучно игнорил, так как всё вроде работало и другого диска под замену не было, да и системой пользовался только я один.

Это была первая ошибка - собирать сервер из хлама и старых дисков. Шло время, файлы закидывались, создавались виртуалки и сервер обрастал функционалом.

И вот на днях я запулил на него большой объём - около 16 гигов медиафайлов с важного события и рассшарил ссылку близким для просмотра.

В итоге, после наплыва около 20-30 пользователей, сбойный диск благополучно отключился, а в логи сыпались ошибки ввода вывода.

Ну ничего, система работала, файлы были доступны, всё хорошо. Но в следующий вечер, я всё-таки решил заменить сбойный диск. И это была вторая ошибка - бездумно отключить устройство и воткнуть новый диск в raid1 собранный на btrfs. (Отключение было стандартным, через веб-интерфейс syno)

Но система загрузилась сразу, нормально (хотя прилетел алерт о некорректном отключении системы).

Но безвозвратно потерялись данные за последние два месяца - куча медиафайлов, виртуалки, логи и тд.

Мораль - собирайте домашний сервачок из норм дисков, с ИБП, с запасом избыточности и не давайте временному стенду стать продктивным сервачком)

raid1 собранный на btrfs безвозвратно потерялись данные за последние два месяца

ясно, понятно.

такое здесь называют ССЗБ.

anonymous
()
Ответ на: комментарий от x905

как я понял, нельзя было выключать систему при разваленном рэйде, нужно было посмотреть как там всё собрано в syno и сделать правильно по инструкции. По итогу какие-то метаданные рэйда были на диске который выдернул из системы. А при загрузке система загрузилась с теми данными которые были на оставшемся в системе диске. А там сохранилось всё, кроме последних двух месяцев.

letarch
() автор топика

Мораль - собирайте домашний сервачок из норм дисков, с ИБП, с запасом избыточности и не давайте временному стенду стать продктивным сервачком)

Это всё конечно хорошо, но настоящую мораль ты не усвоил. А именно: не используй btrfs И другие бета-тестинговые фс если только ты не хочешь стать бета-тестером.

firkax ★★★★★
()
Ответ на: комментарий от letarch

как я понял, нельзя было выключать систему при разваленном рэйде

но разве это не штатное поведение что рэйд развалился ? ради этого он и затевался чтобы если диск сдох, то выкл и заменить

не эксперт, интересуюсь

x905 ★★★★★
()
Ответ на: комментарий от x905

да, в общем случае штатное, но лучший вариант горячая замена диска. А я не помнил умеет ли мой HP Compaq 6200 Pro Small Form Factor PC так делать, поэтому и решил сперва его выключить… Это ошибка была, думаю. Надо было просто попробовать подкинуть новый диск.

letarch
() автор топика
Ответ на: комментарий от letarch

Это очень странная ситуация, в режиме raid1 на дисках должна быть полная копия инфы, включая метаданные. Если только ты самостоятельно зачем-то не выбрал иной способ хранения метаданных на btrfs.
Нужно разбираться, что именно произошло, иначе у тебя это еще раз случится.
Мб synology откатилась к предыдущему снапшоту?

Khnazile ★★★★★
()