LINUX.ORG.RU
ФорумAdmin

Помирает ШДД?

 , ,


0

2

Есть рейд на btrfs.

Вот уже второй раз подряд в конце месяца btrfs scrub находит ошибки.

root-> btrfs scrub status /mnt/data/
UUID:             b708d227-94b9-4284-8c91-f72b844e5c01
Scrub started:    Wed Mar  1 00:00:02 2023
Status:           finished
Duration:         26:04:26
Total to scrub:   1.30TiB
Rate:             18.57MiB/s
Error summary:    read=82 csum=328
  Corrected:      318
  Uncorrectable:  92
  Unverified:     0

Часть лога с исправлениями ошибок с dmesg выглядит так:

мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279647932416 on dev /dev/sdb1
мар 01 11:48:53 Nout-arch kernel: BTRFS warning (device sdd1): checksum error at logical 3279648849920 on dev /dev/sdb1, physical 287078023168, root 259, inode 40947, offset 1125027840, length 4096, links 1 (path: DELETED)
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): bdev /dev/sdb1 errs: wr 954, rd 2, flush 10, corrupt 1924, gen 0
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279648849920 on dev /dev/sdb1
мар 01 11:48:53 Nout-arch kernel: BTRFS warning (device sdd1): checksum error at logical 3279649243136 on dev /dev/sdb1, physical 287078154240, root 259, inode 40947, offset 1125421056, length 4096, links 1 (path: DELETED)
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): bdev /dev/sdb1 errs: wr 954, rd 2, flush 10, corrupt 1925, gen 0
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279646228480 on dev /dev/sdb1
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279646621696 on dev /dev/sdb1
мар 01 11:48:53 Nout-arch kernel: BTRFS warning (device sdd1): checksum error at logical 3279651471360 on dev /dev/sdb1, physical 287078678528, root 259, inode 40947, offset 1127649280, length 4096, links 1 (path: DELETED)
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): bdev /dev/sdb1 errs: wr 954, rd 2, flush 10, corrupt 1926, gen 0
мар 01 11:48:53 Nout-arch kernel: BTRFS warning (device sdd1): checksum error at logical 3279651864576 on dev /dev/sdb1, physical 287078809600, root 259, inode 40947, offset 1128042496, length 4096, links 1 (path: DELETED)
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): bdev /dev/sdb1 errs: wr 954, rd 2, flush 10, corrupt 1927, gen 0
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279644000256 on dev /dev/sdb1
мар 01 11:48:56 Nout-arch kernel: BTRFS warning (device sdd1): checksum error at logical 3279653175296 on dev /dev/sdb1, physical 287079137280, root 259, inode 40947, offset 1129353216, length 4096, links 1 (path: DELETED)
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): bdev /dev/sdb1 errs: wr 954, rd 2, flush 10, corrupt 1928, gen 0
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279649243136 on dev /dev/sdb1
мар 01 11:48:56 Nout-arch kernel: BTRFS warning (device sdd1): checksum error at logical 3279655403520 on dev /dev/sdb1, physical 287079661568, root 259, inode 40947, offset 1131581440, length 4096, links 1 (path: DELETED)
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): bdev /dev/sdb1 errs: wr 954, rd 2, flush 10, corrupt 1929, gen 0
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279651471360 on dev /dev/sdb1
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279651864576 on dev /dev/sdb1
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279643607040 on dev /dev/sdb1

Это сморт жесткого на котором как я понмаю ошибки как раз и устраняются.

root-> smartctl -a /dev/sdb
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.7-arch1-1] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Laptop SSHD
Device Model:     ST500LM000-1EJ162-SSHD
Serial Number:    W767QNQ1
LU WWN Device Id: 5 000c50 0a8105542
Firmware Version: HPRE
User Capacity:    500 107 862 016 bytes [500 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      2.5 inches
Device is:        In smartctl database 7.3/5319
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 1.5 Gb/s)
Local Time is:    Thu Mar  2 09:35:17 2023 +04
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (  139) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  98) minutes.
SCT capabilities:              (0x10b5) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   117   099   006    Pre-fail  Always       -       160178920
  3 Spin_Up_Time            0x0023   099   098   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   099   099   020    Old_age   Always       -       1635
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002f   085   060   030    Pre-fail  Always       -       4654492186
  9 Power_On_Hours          0x0032   079   079   000    Old_age   Always       -       18526
 10 Spin_Retry_Count        0x0033   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1921
180 Unknown_HDD_Attribute   0x002a   100   100   000    Old_age   Always       -       1208530616
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   091   091   000    Old_age   Always       -       9
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       4
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   073   044   045    Old_age   Always   In_the_past 27 (0 3 30 26 0)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       238
193 Load_Cycle_Count        0x0032   093   093   000    Old_age   Always       -       15924
194 Temperature_Celsius     0x0022   027   056   000    Old_age   Always       -       27 (0 11 0 0 0)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 9 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 9 occurred at disk power-on lifetime: 18512 hours (771 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      04:33:36.332  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      04:33:36.332  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      04:33:36.329  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      04:33:36.328  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      04:33:36.328  READ FPDMA QUEUED

Error 8 occurred at disk power-on lifetime: 18512 hours (771 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 80 ff ff ff 4f 00      04:33:31.584  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:33:31.584  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:33:31.584  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:33:31.584  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:33:31.584  READ FPDMA QUEUED

Error 7 occurred at disk power-on lifetime: 18512 hours (771 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 80 ff ff ff 4f 00      04:31:22.647  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:31:22.549  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:31:22.545  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      04:31:22.147  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      04:31:22.147  READ FPDMA QUEUED

Error 6 occurred at disk power-on lifetime: 18512 hours (771 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 80 ff ff ff 4f 00      04:31:16.868  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:31:16.854  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:31:16.854  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:31:16.854  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:31:16.854  READ FPDMA QUEUED

Error 5 occurred at disk power-on lifetime: 18504 hours (771 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 80 ff ff ff 4f 00      03:20:36.268  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      03:20:36.268  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      03:20:36.264  READ FPDMA QUEUED
  61 00 80 ff ff ff 4f 00      03:20:36.247  WRITE FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      03:20:36.238  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     17936         -
# 2  Short offline       Completed without error       00%     16098         -
# 3  Extended offline    Completed without error       00%     14048         -
# 4  Extended offline    Completed without error       00%     11898         -
# 5  Extended offline    Completed without error       00%     11068         -
# 6  Short offline       Completed without error       00%         9         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Правильно ли я понимаю что по логу можно предположить что проблема в диске sdb? Ошибки в смарте этого диска и большое значение атрибута 7 Seek_Error_Rate это подтверждают?

Впервые сталкиваюсь стаким отказом жесткого. До этого все случаи были связаны с банальными битыми секторами. Но тут такого не наблюдается.

★★★★★

Последнее исправление: Behem0th (всего исправлений: 1)

Это же SSHD. Т.е. hdd со встроенной NAND flash memory для кеширования. Интересно, если эта память «протрётся», что будет?

А неприятный атрибут это

187 Reported_Uncorrect      0x0032   091   091   000    Old_age   Always       -       9
greenman ★★★★★
()
Последнее исправление: greenman (всего исправлений: 1)

Оперативную память проверь. У меня как-то было, что на фс возникали ошибки периодически, тоже думал на диск. Оказалось, память. Ичсх, больше ничего не глючило, и даже memtest86+ ошибок не находил, пришлось проприетарный goldmem запускать.

Khnazile ★★★★★
()
Ответ на: комментарий от Khnazile

Сервак подкроватный собранный из всякого хлама и не стоит наверное такую версию отбрасывать. Но почему из 6ти дисков (5 в рейде и один под систему) проблемы каждый раз на одном и том же диске?

Behem0th ★★★★★
() автор топика
Ответ на: комментарий от vvn_black

vvn_black 7 Seek_Error_Rate ... 4654492186 - 1 ошибка на 359524890 операций.

Black_Shadow И в логах соответствующие записи.

Как я понял ошибки есть но их мало, намного меньше чем ошибок при проверке рейда.

Behem0th ★★★★★
() автор топика
Ответ на: комментарий от Khnazile

Такая же фигня была на ThinkPad’е - даже писал в гарантию им. Они посмотрели логи и сказали - все отлично с диском, память приедет наш инженер и заменит. Приехал. Заменил. Прошло 6 лет - живы и память и диск.

Suntechnic ★★★★★
()

Ну так RAID же… У меня диски в таком массиве не раз помирали с такими же логами. Дерни его, загрузись в degraded и посмотри. Ошибка ушла, значит он. Заменишь, сделаешь балансировку массива и живи дальше, пока следующий не сдохнет. Причем один раз была ситуация, когда SMART на неисправном диске утверждал, что вообще все хорошо. Только империческим путем удалось понять он пиз.., врет.

torm7
()
Последнее исправление: torm7 (всего исправлений: 1)
Ответ на: комментарий от Black_Shadow

Слишком далеко идущие выводы для такого малого значения. 9 событий неуспешного чтения сектора за все время жизни диска это ни о чем. Даже current pending по нулям.

Khnazile ★★★★★
()
Ответ на: комментарий от Black_Shadow

Да, хочу. Я их не вижу в smart. Ошибка ecc != неустранимое повреждение сектора. Мало ли из-за данные могли оказаться записаны неправильно, пропадание питания, например. Атрибуты 196-198 по нулям.

Khnazile ★★★★★
()
Ответ на: комментарий от vvn_black

Это любая ошибка, приводящая к невозможности чтения информации с поверхности. Например, повреждение головки тоже будет выглядеть как ошибки UNC.

Black_Shadow ★★★★★
()
Последнее исправление: Black_Shadow (всего исправлений: 2)
Ответ на: комментарий от Black_Shadow

На атрибуты 196-198 можно будет смотреть только после прохождения теста, сейчас они не отражают действительность.

Враньё. Они появляются после обращения к косячным блокам. Что должно было произойти после btrfs scrub.

erfea ★★★★★
()
Ответ на: комментарий от erfea

Враньё. Они появляются после обращения к косячным блокам. Что должно было произойти после btrfs scrub.

Нет. Например 196 вообще никогда не инкрементируется при операциях чтения. И если бы ты хоть немного разбирался в вопросе, ты бы это знал.

Black_Shadow ★★★★★
()
Последнее исправление: Black_Shadow (всего исправлений: 1)
Ответ на: комментарий от Black_Shadow

«Неуспешные ошибки чтения» это что-то что ты придумал. 🤦‍♂️

А ошибки чтения бывают по разным причинам, не зависящим от того считаешь ты их «успешными» или нет.

erfea ★★★★★
()