LINUX.ORG.RU

Условно надёжное хранение информации на двух полудохлых НЖМД, как?

 , ,


3

3

Вопрос: «Как организовать условно надёжное хранение информации на двух полудохлых НЖМД?»

Имеются два полудохлых SATA НЖМД Seagate 1TB (у одного, согласно SMART, Reallocated Sectors Count равно Pre-fail; а у второго уже Fail). Поскольку они всё-таки не до конца дохлые, а полу, хочется их задействовать в домашнем сервере на Ubuntu 16.04.2 и добиться максимально возможной надёжности. Предположим как максиму: диски будут использоваться для хранения важной информации. Причём, важная информация будет двух видов: много мелких файлов (скажем, фотки по 10MB) и большие файлы (например, образы дисков с других компьютеров — 30-200GB). Есть ли приемлемое решение у данной задачи?

У меня знаний по этой теме ноль, поэтому мысль останавливается где-то на «забацать софтовый RAID 1, сверху накатить ZFS и использовать important»... Что же получится в итоге, неясно, ибо ни первого, ни второго я никогда ещё не делал :) Причём, если решение будет найдено, к нему в обязательное дополнение, как я понимаю, нужен ещё мониторинг как минимум динамики того же параметра SMART Reallocated Sectors Count.

Спасибо за ваше внимание и время!

[РЕШЕНО] Для обеспечения максимально возможной сохранности данных на двух полудохлых НЖМД нужно использовать ZFS в режиме «зеркала» и выставить количество хранимых копий каждого файла в 2 (можно 3). Использовать такое решение с осторожностью, чётко понимая, что применённые меры всё равно НИЧЕГО НЕ ГАРАНТИРУЮТ.

Подробнее тут.



Последнее исправление: amokmen (всего исправлений: 3)
Ответ на: комментарий от dn2010

Я один Maxtor вскрыл после начала осыпания, и промыл спиртом полностью, влючая пластины и головки. До сих пор жив, сыпаться перестал, хотя и включается редко.

Так что все можно исправить, если суметь.

P.S. спирт был метиловый ХЧ - стащил в свое время с химфака. Водку не юзать!

timdorohin ★★★★
()
Последнее исправление: timdorohin (всего исправлений: 1)
Ответ на: комментарий от amokmen

Ну, можно считать это профдеформацией ;)

Просто такое добро через мои руки проходит ну очень регулярно, поэтому я и пытаюсь объяснить, чем это может с большой вероятностью закончиться ;) а также указать, что диск — штука ну очень сложная, и пока дело ограничивается плохим смартом, люди об этом не задумываются. Но а так — да на здоровье, может, всё вообще будет хорошо, всякое бывает на свете ;) Мы клиентам всегда говорим — думайте сами, что вам важнее, стоимость железки для бэкапа или стоимость _для_вас_ ваших данных ;)

olegkrutov ★★
()
Ответ на: комментарий от dn2010

Там, где пыль,

время жизни диска во включенном состоянии — минуты-часы. Совсем небольшие частички там фильтруются. А когда уже поверхности начинают запиливаться — это не называется релокейтами, уже всё гораздо хуже.

olegkrutov ★★
()
Ответ на: комментарий от anonymous

В зависимости от внутреннего размещения секторов. С WD у меня прокатывало без падения производительности.

timdorohin ★★★★
()

Употребление «полудохлый НЖМД» и «надёжное хранение» в одном предложение - это заявка на эталонное деление на ноль

Pinkbyte ★★★★★
()
Ответ на: Там, где пыль, от olegkrutov

Но спасти можно и такой диск (если он поцарапался не из-за постоянного смещения голов, а из-за удара во включенном состоянии). Или вы их и не пытаетесь чинить?

timdorohin ★★★★
()
Ответ на: комментарий от Pinkbyte

Не всегда. У мну на ноутбучном после пяти лет юзания ~1500 побитых секторов. Смарт просит закопать уже давно, а тем временем вантус работает второй год на нём в дэсктопе и не бзодит.

timdorohin ★★★★
()
Ответ на: комментарий от timdorohin

Не пытаемся

Визгу много — шерсти мало ;) ещё и с гарантией возиться, нафиг надо

olegkrutov ★★
()
Ответ на: Ну, можно считать это профдеформацией ;) от olegkrutov

Да вы всё верно говорите. И при любом чихе СМАРТа одного из дисков моего «зеркала» с домашним фото- и видеоархивом, я в этот же день его поменяю :)

amokmen
() автор топика
Ответ на: Там, где пыль, от olegkrutov

Пользуясь случаем, раз специалист по НЖМД в теме. Гляньте, пожалуйста, опытным взглядом на СМАРТы обоих пациентов:
/dev/sdb

Model Family:     Seagate Barracuda 7200.12
Device Model:     ST31000528AS
Serial Number:    5VP3FWYL
LU WWN Device Id: 5 000c50 01f52ff26
Firmware Version: CC38
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   115   097   006    Pre-fail  Always       -       96948169
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   097   097   020    Old_age   Always       -       3073
  5 Reallocated_Sector_Ct   0x0033   091   091   036    Pre-fail  Always       -       399
  7 Seek_Error_Rate         0x000f   089   060   030    Pre-fail  Always       -       846953288
  9 Power_On_Hours          0x0032   054   054   000    Old_age   Always       -       41049
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1534
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   078   078   000    Old_age   Always       -       22
188 Command_Timeout         0x0032   100   098   000    Old_age   Always       -       25770197001
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   061   042   045    Old_age   Always   In_the_past 39 (0 18 39 37 0)
194 Temperature_Celsius     0x0022   039   058   000    Old_age   Always       -       39 (0 15 0 0 0)
195 Hardware_ECC_Recovered  0x001a   029   003   000    Old_age   Always       -       96948169
197 Current_Pending_Sector  0x0012   100   099   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   099   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       45341 (184 18 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       1856948632
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       3886304809

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     41034         -

/dev/sdc

Model Family:     Seagate Barracuda 7200.12
Device Model:     ST31000528AS
Serial Number:    5VP3WRFE
LU WWN Device Id: 5 000c50 020b7828c
Firmware Version: CC38
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   106   099   006    Pre-fail  Always       -       10836779
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       114
  5 Reallocated_Sector_Ct   0x0033   007   007   036    Pre-fail  Always   FAILING_NOW 3843
  7 Seek_Error_Rate         0x000f   089   060   030    Pre-fail  Always       -       901651308
  9 Power_On_Hours          0x0032   042   042   000    Old_age   Always       -       51195
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       57
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   071   071   000    Old_age   Always       -       29
188 Command_Timeout         0x0032   100   098   000    Old_age   Always       -       73015558163
189 High_Fly_Writes         0x003a   097   097   000    Old_age   Always       -       3
190 Airflow_Temperature_Cel 0x0022   060   040   045    Old_age   Always   In_the_past 40 (Min/Max 22/40 #1463)
194 Temperature_Celsius     0x0022   040   060   000    Old_age   Always       -       40 (0 11 0 0 0)
195 Hardware_ECC_Recovered  0x001a   042   018   000    Old_age   Always       -       10836779
197 Current_Pending_Sector  0x0012   100   096   000    Old_age   Always       -       3
198 Offline_Uncorrectable   0x0010   100   096   000    Old_age   Offline      -       3
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       51331 (180 89 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2291864581
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       1735491044

SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.

amokmen
() автор топика
Ответ на: комментарий от amokmen

А количество перемещенных не растет? Понаблюдай в течении часа...

Если растет быстрее чем 20/час, рэйд не доживет этот день...

timdorohin ★★★★
()
Ответ на: комментарий от timdorohin

Я уже как-то писал, что предпочитаю менять винты у которых reallocated sectors > 0 как только так сразу. Потому что дальше начинается лотерея - проработают ли они еще пару лет или навернутся через час.

Pinkbyte ★★★★★
()
Ответ на: комментарий от amokmen

Я процитировал самое важное. Ты пытаешься усидеть на двух стульях. Или тебе нужно хранилище данных, которые не жалко будет в случае чего потерять или тебе нужно хранилище на надежных накопителях.

Третьего не дано.

Pinkbyte ★★★★★
()

Большое спасибо за Ваш вопрос! Буду думать! :-)

anonymous
()
Ответ на: комментарий от amokmen

Ну, я б заменил оба

У них и reported uncorrect (выдавались ошибки I/o) не ноль, и ремапы кучей

olegkrutov ★★
()

А теперь представь ситуацию: из строя выходит Pre-Fail диск. Как ты думаешь, какова вероятность того что Fail-диск сдохнет прямо во время покупки, замены и последующего переклонирования RAID1 на новый терабайтник?

mersinvald ★★★★★
()
Ответ на: комментарий от mersinvald

:)

Даже мне больно от твоего предположения, хоть я и не храню ничего ценного на умирающих винтах...

За что ты так с человеком?

Самое страшное в моей жизни было, когда начал умирать raid60 в конторе. Вот тогда было действительно страшно. А винты там были - сигейты из ОДНОЙ партии.

timdorohin ★★★★
()
Последнее исправление: timdorohin (всего исправлений: 1)
Ответ на: комментарий от amokmen

Я не имел ввиду такого. Желание сделать что-то хорошее из говна и палок^W^W^W^W из подручных средств - это не тупость.

Однако понимание, что, возможно, данная идея либо нереализуема, либо еще более затратна чем нечерезжопное решение - это признак здравого ума.

Pinkbyte ★★★★★
()
Ответ на: комментарий от peregrine

Достану бэкап :)

Ладно, пора закрывать дискуссию. То, что я хотел, сделал: Для обеспечения максимально возможной сохранности данных на двух полудохлых НЖМД нужно использовать ZFS (Btrfs) в режиме «зеркала» и выставить количество хранимых копий каждого файла в 2 (можно 3). Использовать такое решение с осторожностью, чётко понимая, что применённые меры всё равно НИЧЕГО НЕ ГАРАНТИРУЮТ.

Зачем мне это было нужно и как мне дальше с этим жить, оставим за скобками. Теперь буду с нетерпением ждать, когда уже можно будет выковыривать магнитики :)

Всем участникам дискуссии — спасибо!

amokmen
() автор топика
Ответ на: комментарий от timdorohin

За что ты так с человеком?

Он не понимает простой истины: дохлые диски не обеспечивают никакой сохранности данных.
Лучше он представит и пару ночей будет просыпаться от кошмаров, нежели потеряет терабайт важных данных (и фоточки с моря + 3.14здюли от жены могут оказаться только самой верхушкой айсберга)

mersinvald ★★★★★
()
Ответ на: комментарий от mersinvald

Рекомендую уже всё-таки прочесть все мои сообщения в теме :)

amokmen
() автор топика
Ответ на: комментарий от anonymous

Когда винты начали сыпатся так, что еле успевал заменять и сливать инфу - было шесть часов интима, с нависающим над головой шефом. Диски начали сыпатся прост один за одним - у партии всегда близкие сроки жизни.

timdorohin ★★★★
()
Ответ на: комментарий от amokmen

выставить количество хранимых копий каждого файла в 2 (можно 3).

Это увеличивает нагрузку на механику диска. Зачем так делать?

iZEN ★★★★★
()
Ответ на: комментарий от amokmen

использовать ZFS (Btrfs) [...] выставить количество хранимых копий каждого файла в 2 (можно 3).

btrfs разве умеет так?

NyXzOr ★★★★
()
Ответ на: комментарий от timdorohin

raid60
Когда винты начали сыпатся так, что еле успевал заменять и сливать инфу
было шесть часов интима

Ну-ну, и сколько же винтов ты успел поменять за целых шесть часов?

anonymous
()
Ответ на: комментарий от anonymous

Рэйд продолжал использоватся в момент распада.

Ты в курсе, сколько списывается инфа с террабайтника? Около трех часов, кстати. Хорошо что рейд не полностью забитым был...

Самый стремный момент - когда один винт только вводился в рэйд а второй успел сдохнуть в одной из половинок.

В итоге поменял пять из восьми. После штабилизации ситуации добил и остальные. Зато магнитиков у меня теперь завались...

timdorohin ★★★★
()
Последнее исправление: timdorohin (всего исправлений: 2)
Ответ на: комментарий от timdorohin

Я-то как раз в курсе, а вот ты, похоже, опять какие-то байки травишь. 5 дисков за 6 часов в 6м рэйде, который продолжал использоваться - тут только бугага уместно. Ещё и какую-то инфу с них сливая, непонятно правда что, куда и зачем.

Хорошо что рейд не полностью забитым был

Это никак не влияет на скорость ребилда массива, кстати.

anonymous
()
Ответ на: комментарий от anonymous

Я-то как раз в курсе, а вот ты, похоже, опять какие-то байки травишь. 5 дисков за 6 часов в 6м рэйде, который продолжал использоваться - тут только бугага уместно. Ещё и какую-то инфу с них сливая, непонятно правда что, куда и зачем.

1. Инфа сливалась с массива целиком, а не с дисков. 5 дисков - количество воткнутых новых, когда эпопея (ака рабочий день) закончилась - они еще продолжали зеркалироваться.

Это никак не влияет на скорость ребилда массива, кстати.

ZFS on FreeBSD. Ей как раз важно - террабайт лить, или половину. Железного рэйда не было.

timdorohin ★★★★
()
Ответ на: комментарий от iZEN

Чтобы повысить вероятность сохранности данных при: 1) Появлении сбойного участка, затрагивающего нужные данные, на обоих дисках разом. Если я верно понимаю организацию файловой системы ZFS, это не обязательно должен быть один и тот же физический LBA на обоих дисках. 2) Полной смерти одного из дисков, и появлении сбойного участка на втором.

amokmen
() автор топика
Ответ на: комментарий от NyXzOr

Не знаю.

Я просто не совсем корректно выразил свою мысль. Когда писал, хотел сказать, что помимо ZFS ещё можно использовать Btrfs.

amokmen
() автор топика
Ответ на: комментарий от anonymous

зеркалироваться
Чо?

Рэбилдиться. Оговорился

Сначала вылетел один, через час второй. Потом вылетела пара с разницей минут 10, последний - за час-полтора перед концом. Пара вылетела как раз в одной из ветвей страйпа. И тут очко резко сжалось как раз - бэкап на внешний накопитель писатся продолжал еще...

timdorohin ★★★★
()
Ответ на: комментарий от timdorohin

Краткая выжимка из твоей писанины: raid60 из 8 дисков и 5 из них в ребилде, я ничего не упустил?

anonymous
()
Ответ на: комментарий от anonymous

Упустил. Одновременно в рэбилде сидело не более трех (четыре только в течении 10 мин было, потом первый заребилдился). Только если бы хоть один диск еще отказал - была бы жопа с вероятностью 50%

А вообще из произошедшего вынес только одно - НИКАКИХ сигейтов в ответственных серверах.

timdorohin ★★★★
()
Последнее исправление: timdorohin (всего исправлений: 1)
Ответ на: комментарий от timdorohin

разожми уже себе очко, сказочник…

anonymous
()
Ответ на: комментарий от timdorohin

У тебя факты по швам трещат. А время ребилдов так вообще будоражит воображение. Анон выше всё сказал.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.