LINUX.ORG.RU

Сломался диск

 , ,


0

2

Есть два диска SSD в страйпе. Там в последнее время ошибки появлялись в zpool status. Я хотел взять другие два диска SSD, сделать из них зеркало и перенести пул со старых дисков (в страйпе) на новые (в зеркале).

У меня send/recv сфейлилось, потому что на диске были ошибки. Хотел сделать zpool scrub на диске чтобы исправить некоторые ошибки, но случайно ударил диск во время scrub и ошибок стало еще больше. Сейчас ситуация такая:

zpool status zroot
  pool: zroot
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-8A
  scan: scrub repaired 0B in 00:06:37 with 2284635 errors on Sat Feb 24 16:38:36 2024
config:

        NAME          STATE     READ WRITE CKSUM
        zroot         ONLINE       0     0     0
          ada2p4.eli  ONLINE       0     0     0
          ada3p4.eli  ONLINE       0     0     0

errors: 1934727 data errors, use '-v' for a list

Что можно сделать, чтобы исправить ошибки и подготовить для переноса на другой диск?

★★★★★

Последнее исправление: Clockwork (всего исправлений: 1)

Что можно сделать, чтобы исправить ошибки и подготовить для переноса на другой диск?

rsync-ом с пропуском ошибок, сколько сможет вытащить.

А в SMART есть что-то про проблемы в накопителях?

Если только CRC ошибки, то укорачивай SATA кабели до 10см и отключай от системника максимальное количество кабелей, а лучше вообще подключи диски к ноуту хотя бы через переходник и запитывай его от батареи на время вытаскивания данных.

sanyo1234
()
Последнее исправление: sanyo1234 (всего исправлений: 1)
Ответ на: комментарий от sanyo1234

Давно заметил подозрительное поведение у накопителей, поэтому собирался как раз перенести пул из страйпа в миррор на новые.

ada2:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0032   000   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       6849
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       1323
148 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       0
149 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       0
167 Write_Protect_Mode      0x0000   100   100   000    Old_age   Offline      -       0
168 SATA_Phy_Error_Count    0x0012   100   100   000    Old_age   Always       -       0
169 Bad_Block_Rate          0x0000   100   100   000    Old_age   Offline      -       29
170 Bad_Blk_Ct_Lat/Erl      0x0000   100   100   010    Old_age   Offline      -       0/20
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
173 MaxAvgErase_Ct          0x0000   100   100   000    Old_age   Offline      -       291 (Average 244)
181 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
182 Erase_Fail_Count        0x0000   100   100   000    Old_age   Offline      -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
192 Unsafe_Shutdown_Count   0x0012   100   100   000    Old_age   Always       -       256
194 Temperature_Celsius     0x0022   073   057   000    Old_age   Always       -       27 (Min/Max 18/43)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
199 SATA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       0
218 CRC_Error_Count         0x0032   100   100   000    Old_age   Always       -       0
231 SSD_Life_Left           0x0000   025   025   000    Old_age   Offline      -       75
233 Flash_Writes_GiB        0x0032   100   100   000    Old_age   Always       -       28171
241 Lifetime_Writes_GiB     0x0032   100   100   000    Old_age   Always       -       9764
242 Lifetime_Reads_GiB      0x0032   100   100   000    Old_age   Always       -       4752
244 Average_Erase_Count     0x0000   100   100   000    Old_age   Offline      -       244
245 Max_Erase_Count         0x0000   100   100   000    Old_age   Offline      -       291
246 Total_Erase_Count       0x0000   100   100   000    Old_age   Offline      -       925816

ada3:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0032   100   100   000    Old_age   Always       -       100
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       15844
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       2475
148 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       0
149 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       0
167 Write_Protect_Mode      0x0000   100   100   000    Old_age   Offline      -       0
168 SATA_Phy_Error_Count    0x0012   100   100   000    Old_age   Always       -       1
169 Bad_Block_Rate          0x0000   100   100   000    Old_age   Offline      -       0
170 Bad_Blk_Ct_Lat/Erl      0x0000   100   100   010    Old_age   Offline      -       0/0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
173 MaxAvgErase_Ct          0x0000   100   100   000    Old_age   Offline      -       0
181 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
182 Erase_Fail_Count        0x0000   100   100   000    Old_age   Offline      -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
192 Unsafe_Shutdown_Count   0x0012   100   100   000    Old_age   Always       -       574
194 Temperature_Celsius     0x0022   035   059   000    Old_age   Always       -       35 (Min/Max 21/59)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
199 SATA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       0
218 CRC_Error_Count         0x0032   100   100   000    Old_age   Always       -       1
231 SSD_Life_Left           0x0000   013   013   000    Old_age   Offline      -       13
233 Flash_Writes_GiB        0x0032   100   100   000    Old_age   Always       -       91348
241 Lifetime_Writes_GiB     0x0032   100   100   000    Old_age   Always       -       19396
242 Lifetime_Reads_GiB      0x0032   100   100   000    Old_age   Always       -       13334
244 Average_Erase_Count     0x0000   100   100   000    Old_age   Offline      -       879
245 Max_Erase_Count         0x0000   100   100   000    Old_age   Offline      -       921
246 Total_Erase_Count       0x0000   100   100   000    Old_age   Offline      -       372876
Clockwork ★★★★★
() автор топика
Ответ на: комментарий от ox55ff

В то время мне просто места не хватало, а под рукой был диск такого же размера, мне было лень покупать новый и переносить и я добавил на живую в страйп. Было как-то пофиг умрёт у меня один диск большего размера или один из двух дисков в страйпе.

Clockwork ★★★★★
() автор топика
Ответ на: комментарий от sanyo1234

Это само собой, они делаются.

Попробую с сервера репликатора зайти и сделать бекап в обратную сторону.

Clockwork ★★★★★
() автор топика
Последнее исправление: Clockwork (всего исправлений: 1)
Ответ на: комментарий от firkax

Разные модели? Какие?

  ID-3: /dev/ada2 vendor: Kingston model: SA400S37120G SBFKB1E1
    size: 111.79 GiB scheme: GPT
  ID-4: /dev/ada3 vendor: Kingston model: SA400S37120G R0105A
    size: 111.79 GiB scheme: GPT
Clockwork ★★★★★
() автор топика
Последнее исправление: Clockwork (всего исправлений: 1)
Ответ на: комментарий от utanho

Как и всё в этом мире.

Некоторым хотелось бы, чтобы было так, но увы.

Есть способы предварительной проверки объектов, влияющих на будущее действия, и способы подстраховаться и защититься, сводя вероятностные девиации к самому минимуму.

sanyo1234
()
Ответ на: комментарий от Clockwork

Попробую с сервера репликатора зайти и сделать бекап в обратную сторону.

Чето оно обратно не идёт

$ zfs send -R zapback/phe/ROOT/14.0R@ZAP_mothership_2024-02-23T20:00:00p0200--1d | ssh zap@mothership zfs receive -vFd ospool
cannot hold: permission denied
cannot send 'zapback/phe/ROOT/14.0R': permission denied
cannot receive: failed to read from stream
Clockwork ★★★★★
() автор топика
Ответ на: комментарий от sanyo1234

Есть способы предварительной проверки объектов, влияющих на будущее действия, и способы подстраховаться и защититься, сводя вероятностные девиации к самому минимуму

Нет, это самообман.

utanho ★★★★★
()
Ответ на: комментарий от sanyo1234

rsync-ом с пропуском ошибок, сколько сможет вытащить.

Попробовать загрузиться в livecd, импортировать zroot в ридонли и сделать rsync -a --ignore-errors /old_pool /new_pool/ ?

Clockwork ★★★★★
() автор топика
Последнее исправление: Clockwork (всего исправлений: 1)