Помирает ШДД?

0

2

Есть рейд на btrfs.

Вот уже второй раз подряд в конце месяца btrfs scrub находит ошибки.

root-> btrfs scrub status /mnt/data/
UUID:             b708d227-94b9-4284-8c91-f72b844e5c01
Scrub started:    Wed Mar  1 00:00:02 2023
Status:           finished
Duration:         26:04:26
Total to scrub:   1.30TiB
Rate:             18.57MiB/s
Error summary:    read=82 csum=328
  Corrected:      318
  Uncorrectable:  92
  Unverified:     0

Часть лога с исправлениями ошибок с dmesg выглядит так:

мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279647932416 on dev /dev/sdb1
мар 01 11:48:53 Nout-arch kernel: BTRFS warning (device sdd1): checksum error at logical 3279648849920 on dev /dev/sdb1, physical 287078023168, root 259, inode 40947, offset 1125027840, length 4096, links 1 (path: DELETED)
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): bdev /dev/sdb1 errs: wr 954, rd 2, flush 10, corrupt 1924, gen 0
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279648849920 on dev /dev/sdb1
мар 01 11:48:53 Nout-arch kernel: BTRFS warning (device sdd1): checksum error at logical 3279649243136 on dev /dev/sdb1, physical 287078154240, root 259, inode 40947, offset 1125421056, length 4096, links 1 (path: DELETED)
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): bdev /dev/sdb1 errs: wr 954, rd 2, flush 10, corrupt 1925, gen 0
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279646228480 on dev /dev/sdb1
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279646621696 on dev /dev/sdb1
мар 01 11:48:53 Nout-arch kernel: BTRFS warning (device sdd1): checksum error at logical 3279651471360 on dev /dev/sdb1, physical 287078678528, root 259, inode 40947, offset 1127649280, length 4096, links 1 (path: DELETED)
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): bdev /dev/sdb1 errs: wr 954, rd 2, flush 10, corrupt 1926, gen 0
мар 01 11:48:53 Nout-arch kernel: BTRFS warning (device sdd1): checksum error at logical 3279651864576 on dev /dev/sdb1, physical 287078809600, root 259, inode 40947, offset 1128042496, length 4096, links 1 (path: DELETED)
мар 01 11:48:53 Nout-arch kernel: BTRFS error (device sdd1): bdev /dev/sdb1 errs: wr 954, rd 2, flush 10, corrupt 1927, gen 0
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279644000256 on dev /dev/sdb1
мар 01 11:48:56 Nout-arch kernel: BTRFS warning (device sdd1): checksum error at logical 3279653175296 on dev /dev/sdb1, physical 287079137280, root 259, inode 40947, offset 1129353216, length 4096, links 1 (path: DELETED)
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): bdev /dev/sdb1 errs: wr 954, rd 2, flush 10, corrupt 1928, gen 0
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279649243136 on dev /dev/sdb1
мар 01 11:48:56 Nout-arch kernel: BTRFS warning (device sdd1): checksum error at logical 3279655403520 on dev /dev/sdb1, physical 287079661568, root 259, inode 40947, offset 1131581440, length 4096, links 1 (path: DELETED)
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): bdev /dev/sdb1 errs: wr 954, rd 2, flush 10, corrupt 1929, gen 0
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279651471360 on dev /dev/sdb1
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279651864576 on dev /dev/sdb1
мар 01 11:48:56 Nout-arch kernel: BTRFS error (device sdd1): fixed up error at logical 3279643607040 on dev /dev/sdb1

Это сморт жесткого на котором как я понмаю ошибки как раз и устраняются.

root-> smartctl -a /dev/sdb
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.7-arch1-1] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Laptop SSHD
Device Model:     ST500LM000-1EJ162-SSHD
Serial Number:    W767QNQ1
LU WWN Device Id: 5 000c50 0a8105542
Firmware Version: HPRE
User Capacity:    500 107 862 016 bytes [500 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      2.5 inches
Device is:        In smartctl database 7.3/5319
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 1.5 Gb/s)
Local Time is:    Thu Mar  2 09:35:17 2023 +04
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (  139) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  98) minutes.
SCT capabilities:              (0x10b5) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   117   099   006    Pre-fail  Always       -       160178920
  3 Spin_Up_Time            0x0023   099   098   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   099   099   020    Old_age   Always       -       1635
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002f   085   060   030    Pre-fail  Always       -       4654492186
  9 Power_On_Hours          0x0032   079   079   000    Old_age   Always       -       18526
 10 Spin_Retry_Count        0x0033   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1921
180 Unknown_HDD_Attribute   0x002a   100   100   000    Old_age   Always       -       1208530616
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   091   091   000    Old_age   Always       -       9
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       4
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   073   044   045    Old_age   Always   In_the_past 27 (0 3 30 26 0)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       238
193 Load_Cycle_Count        0x0032   093   093   000    Old_age   Always       -       15924
194 Temperature_Celsius     0x0022   027   056   000    Old_age   Always       -       27 (0 11 0 0 0)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 9 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 9 occurred at disk power-on lifetime: 18512 hours (771 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00      04:33:36.332  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      04:33:36.332  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      04:33:36.329  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      04:33:36.328  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      04:33:36.328  READ FPDMA QUEUED

Error 8 occurred at disk power-on lifetime: 18512 hours (771 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 80 ff ff ff 4f 00      04:33:31.584  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:33:31.584  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:33:31.584  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:33:31.584  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:33:31.584  READ FPDMA QUEUED

Error 7 occurred at disk power-on lifetime: 18512 hours (771 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 80 ff ff ff 4f 00      04:31:22.647  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:31:22.549  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:31:22.545  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      04:31:22.147  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00      04:31:22.147  READ FPDMA QUEUED

Error 6 occurred at disk power-on lifetime: 18512 hours (771 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 80 ff ff ff 4f 00      04:31:16.868  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:31:16.854  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:31:16.854  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:31:16.854  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      04:31:16.854  READ FPDMA QUEUED

Error 5 occurred at disk power-on lifetime: 18504 hours (771 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 80 ff ff ff 4f 00      03:20:36.268  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      03:20:36.268  READ FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      03:20:36.264  READ FPDMA QUEUED
  61 00 80 ff ff ff 4f 00      03:20:36.247  WRITE FPDMA QUEUED
  60 00 80 ff ff ff 4f 00      03:20:36.238  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     17936         -
# 2  Short offline       Completed without error       00%     16098         -
# 3  Extended offline    Completed without error       00%     14048         -
# 4  Extended offline    Completed without error       00%     11898         -
# 5  Extended offline    Completed without error       00%     11068         -
# 6  Short offline       Completed without error       00%         9         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Правильно ли я понимаю что по логу можно предположить что проблема в диске sdb? Ошибки в смарте этого диска и большое значение атрибута 7 Seek_Error_Rate это подтверждают?

Впервые сталкиваюсь стаким отказом жесткого. До этого все случаи были связаны с банальными битыми секторами. Но тут такого не наблюдается.

Ссылка

←	ntpd, unlink local addr, ВПН не спасает

Self hosted Captive Portal

→

← 1 2 →

Ответ на: комментарий от Black_Shadow 02.03.23 14:42:47 MSK

Учи формальную логику, ты опять споришь с тем что сам придумал, якобы я утверждал 🤦‍♂️

Разговор с тобой окончен.

~~erfea~~ ★★★★★
(02.03.23 14:44:02 MSK)

Ответ на: комментарий от erfea 02.03.23 14:44:02 MSK

Потому что тебе нечего сказать по делу. Объясни, каким образом на исправном диске могут появиться ошибки чтения?

Black_Shadow ★★★★★
(02.03.23 14:44:55 MSK)

Другой кабель пробовал?

targitaj ★★★★★
(02.03.23 14:45:51 MSK)

Ссылка

Ответ на: комментарий от Black_Shadow 02.03.23 14:44:55 MSK

Ну это нетрудно. Системник стоит на полу, чем сидит и рабочий системник пинает ногой.

targitaj ★★★★★
(02.03.23 14:46:50 MSK)

Ссылка

Диск на замену.

Dimez ★★★★★
(02.03.23 14:47:20 MSK)

Ссылка

Ответ на: комментарий от Black_Shadow 02.03.23 14:44:55 MSK

Потому что тебе нечего сказать по делу.

Я всё сказал, а то что ты понял как захотел это твои проблемы.

Объясни, каким образом на исправном диске могут появиться ошибки чтения?

Посредством элементарного размагничивания, например. У меня такое было и не раз. Диск исправен, данные нет. После перезаписи диск может работать годами без проблем.

~~erfea~~ ★★★★★
(02.03.23 14:50:22 MSK)

Ответ на: комментарий от erfea 02.03.23 14:50:22 MSK

Посредством элементарного размагничивания, например. У меня такое было и не раз. Диск исправен, данные нет. После перезаписи диск может работать годами без проблем.

OMG, «размагничивание»? Какой бред ты придумаешь ещё? К твоему сведению, на блинах есть ещё и метаданные, и «размагничивание» - это гораздо более печальные последствия, чем просто невозможность чтения.

Black_Shadow ★★★★★
(02.03.23 14:55:30 MSK)

Ответ на: комментарий от vvn_black 02.03.23 10:11:38 MSK

1 ошибка на 359524890 операций.

Разве там 32/32 бит, а не 16/48?

mky ★★★★★
(02.03.23 15:02:26 MSK)

Ответ на: комментарий от Black_Shadow 02.03.23 14:55:30 MSK

Последний раз говорю разговор окончен. Размагничивание, не размагничивание не знаю точно. У меня лабаротории для досконального исследования каждого прошедшего через мои руки диска нету. Порча данных на диске случается, что там конкретно произошло каждый раз выяснить невозможно по объективным причинам. Но тот факт что диск после такого вполне может исправно работать годами, это факт. Случается не часто, ЧСХ как правило с полежавшими дисками. Можешь сколько угодно надувать щёки.

Разговор с тобой окончен, остынь клоун. Поучи лучше формальную логику.

Моё резюме прежнее диск наверняка исправен, но лучше прогнать викой или смарттестом дабы убедиться.

~~erfea~~ ★★★★★
(02.03.23 15:04:52 MSK)

SMART нужно постоянно сохранять, а потом сравнивать, смотреть как изменяются показания. Тогда, например, можно понять что в Seek_Error_Rate, там у сегейтов два счётчика, один в младших битах, другой в старших. Как значение резко изменится, так и будет понятно, в каких старших битах счётчик.

Почемую, если в логах ошибки в 18504, то не проводился тест (последний в 17936)?

Ну и ″smartctl -x″.

mky ★★★★★
(02.03.23 15:13:39 MSK)

Ссылка

Ответ на: комментарий от mky 02.03.23 15:02:26 MSK

По-моему, 48 на всё, старшие 16 - счётчик, и 32 на количество операций.

vvn_black ★★★★★
(02.03.23 15:14:06 MSK)

Ссылка

Ответ на: комментарий от erfea 02.03.23 15:04:52 MSK

Последний раз говорю разговор окончен.

Это твоя проблема, я с тобой разговор не заканчивал. Не хочешь - не пиши.

Размагничивание, не размагничивание не знаю точно.

То размагничивание, то не размагничивание, то ты ничего не знаешь.

У меня лабаротории для досконального исследования каждого прошедшего через мои руки диска нету.

Дело не в лаборатории, а в отсутствии у тебя знаний.

Порча данных на диске случается, что там конкретно произошло каждый раз выяснить невозможно по объективным причинам.

Но, зная принципы работы HDD, можно предположить, что могло произойти, а что нет.

Но тот факт что диск после такого вполне может исправно работать годами, это факт.

После какого такого? После чего конкретно? После размагничивания? После возникновения дефекта поверхности? После повреждения головки? Определись уже. Вот, например, в данном случае мы видим, что за последние 24 часа произошло 5 ошибок чтения. Ты считаешь это нормальной работой годами?

Разговор с тобой окончен, остынь клоун. Поучи лучше формальную логику.

Я на это не буду отвечать. А разговор я закончу тогда, когда мне захочется.

Моё резюме прежнее диск наверняка исправен, но лучше прогнать викой или смарттестом дабы убедиться.

Видишь ли в чём дело. Твоё резюме никому не интересно.

Black_Shadow ★★★★★
(02.03.23 15:37:36 MSK)

Ссылка

Ответ на: комментарий от erfea 02.03.23 15:04:52 MSK

Порча данных на диске случается, что там конкретно произошло каждый раз выяснить невозможно по объективным причинам

Ага, это называется UER и не видно в SMART.

Dimez ★★★★★
(02.03.23 15:41:33 MSK)

Ответ на: комментарий от Dimez 02.03.23 15:41:33 MSK

Вылезают ошибки по чтению. Имею такой опыт. Многократно.

~~erfea~~ ★★★★★
(02.03.23 15:44:12 MSK)

Ответ на: комментарий от erfea 02.03.23 15:44:12 MSK

Да, я про это и говорю. UER. 1 ошибка на 10^15 чтений. Из-за этого может развалиться raid5 на больших десктопных дисках при восстановлении.

А у ТС просто портится диск и ему пора в помойку (тем более старый ноутбучный sshd)

Dimez ★★★★★
(02.03.23 15:45:39 MSK)
Последнее исправление: Dimez 02.03.23 15:47:45 MSK (всего исправлений: 2)

Ответ на: комментарий от Dimez 02.03.23 15:45:39 MSK

А у ТС просто портится диск и ему пора в помойку (тем более старый ноутбучный sshd)

Возможно, но я бы приговаривал после прогона викой. Скорее всего он вполне ещё живой. А вот нафига он вообще нужен вопрос открытый, забыл когда последний раз такое барахло в руках держал. У меня в личном хозяйстве HHD только для бекапов (нормальный такой серверный HGST, 3.5 и совсем другой ёмкости) остался, да в компе жены один доживает свои годы. Но не нам же решать нужно ТСу это барахло или нет. )

~~erfea~~ ★★★★★
(02.03.23 15:59:16 MSK)

Ответ на: комментарий от erfea 02.03.23 15:59:16 MSK

Возможно, но я бы приговаривал после прогона викой. Скорее всего он вполне ещё живой.

Нет, не живой. 10^15 - это 1 на очень много секторов. Тут вообще UNC в логах

Dimez ★★★★★
(02.03.23 16:07:52 MSK)

Ответ на: комментарий от Dimez 02.03.23 16:07:52 MSK

Тут вообще UNC в логах

А можно развернутой инфы что это значит? Смарт жестких для меня в большей своей части загадка.

Behem0th ★★★★★
(02.03.23 17:12:25 MSK) автор топика

Ответ на: комментарий от Behem0th 02.03.23 17:12:25 MSK

Некорректируемая ошибка чтения.

Black_Shadow ★★★★★
(02.03.23 17:18:21 MSK)

Ссылка

Ответ на: комментарий от Behem0th 02.03.23 17:12:25 MSK

UNC == UNCorrectable error.

Вот табличка: https://www.smartmontools.org/browser/trunk/smartmontools/ataprint.cpp#L89

Dimez ★★★★★
(02.03.23 19:46:17 MSK)

Ссылка

Ответ на: комментарий от Behem0th 02.03.23 09:28:59 MSK

Шлейф замени для начала

Dark_SavanT ★★★★★
(02.03.23 19:54:20 MSK)

Ссылка

Error summary: read=82 csum=328

Тут не только ошибки чексумм.

btrfs scrub status -R и полный лог ядра в студию.

Я сварщик далеко не настоящий, но

              /----------------\
              | SMART selftest |
              \----------------/
                      |
                      |
   /-------------------------------------\
   | Нашлись ли проблемы на самом диске? |
   \-------------------------------------/
                      |
                      |
           ____(да)__/ \________(нет)____
          /                              \
          |                              |
   /-------------\       /--------------------------------\
   | Менять диск |       | Проверять память, шлейфы, etc. |
   \-------------/       \--------------------------------/

intelfx ★★★★★
(02.03.23 22:38:59 MSK)
Последнее исправление: intelfx 02.03.23 22:44:11 MSK (всего исправлений: 3)

Ответ на: комментарий от greenman 02.03.23 09:06:55 MSK

Интересно, если эта память «протрётся», что будет?

Ничего не будет. У микрухи свой смарт, если оно отказывать начинает - больше не используется для кеша записи, только для чтения. Померла совсем - будет обычный диск, типа только с блинами

DumLemming ★★
(02.03.23 22:53:45 MSK)

Ссылка

Ответ на: комментарий от intelfx 02.03.23 22:38:59 MSK

Проверять память

Почему за 2 прогона общей продолжительности примерно двое суток ошибки проявляются только на одном диске? Могло бы хоть раз выпасть на другой диск.

Behem0th ★★★★★
(02.03.23 23:01:53 MSK) автор топика

причём тут Linux?

Herabora
(02.03.23 23:03:08 MSK)

Ответ на: комментарий от vvn_black 02.03.23 14:34:12 MSK

Первый адекватный ответ в этом богозабытом треде.

token_polyak ★★★★★
(02.03.23 23:11:56 MSK)
Последнее исправление: token_polyak 02.03.23 23:18:11 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от Herabora 02.03.23 23:03:08 MSK

При том что в нем отписался ты, а ты пользуешься линуксом.

Behem0th ★★★★★
(03.03.23 07:36:34 MSK) автор топика

Ссылка

Ответ на: комментарий от Behem0th 02.03.23 23:01:53 MSK

Говорю же, сварщик отнюдь не настоящий.

Если смотреть не на сам диск, то скорее на кабели всякие — но нет, наверняка диск. Память упомянул сугубо для полноты картины.

wr 954, rd 2, flush 10, corrupt 1924, gen 0

Может, SSD-кэш помирает.

intelfx ★★★★★
(03.03.23 08:14:28 MSK)

Ссылка

Black_Shadow greenman Khnazile vvn_black ~~erfea~~ targitaj Dimez mky Dark_SavanT intelfx DumLemming

Сори если кого лишнего кастанул.

Сделал три полных прогона этого жесткого.

1й Викторией 3.52 из под доса.

2й Викторией 5.27 из под винды

3й MHDD последняя доступная версия из под доса.

На всех трех проходах не было выявлено ни одного сбойного сектора, небыло и нестабильных. Поверхность диска идеальная, за все 500Гб секторов с откликом 200мс было всего с десяток.

Остается шлейф и память? Попробую заменить шлейф и убрать одно из плашек памяти на тест.

Смарт после всех прогонов.

https://www.grantipak.ru/s/pp8K48tsJEQbkWk

Behem0th ★★★★★
(04.03.23 07:34:04 MSK) автор топика

  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
...
187 Reported_Uncorrect      0x0032   091   091   000    Old_age   Always       -       9
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       4
...
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0

У меня нечто подобное наблюдалось из-за глючного дешманского SATA-кабеля. Поменял кабель, проблема ушла. Попробуйте сменить кабель. Если не поможет, то возможно глючит порт на мат. плате. Попробуйте этот hdd переткнуть на другой порт другим кабелем, а на его место подключить нормально работающий hdd. Если второй hdd тоже покажет подобное поведение, то несите в сервис плату.

QsUPt7S ★★
(04.03.23 08:27:42 MSK)

Ссылка

Ответ на: комментарий от Behem0th 04.03.23 07:34:04 MSK

Как вариант ещё, не перегревайте, потому что проблемы с диском были судя по смарту.

vvn_black ★★★★★
(04.03.23 08:29:04 MSK)

Ссылка

Ответ на: комментарий от Behem0th 04.03.23 07:34:04 MSK

Остается шлейф и память? Попробую заменить шлейф и убрать одно из плашек памяти на тест

Мб контроллер? Попробуй ещё смеха ради поменять диски местами, или временно раздобыть где-то другой SATA-контроллер (не набортный) и воткнуть в него.

intelfx ★★★★★
(04.03.23 10:27:01 MSK)
Последнее исправление: intelfx 04.03.23 10:27:25 MSK (всего исправлений: 1)

Ответ на: комментарий от intelfx 04.03.23 10:27:01 MSK

QsUPt7S Решил поменять местами с жестким с которым не было проблем.

Так же нашел обновление фирмари на этот жесткий.

https://support.lenovo.com/us/en/solutions/ht501499-seagate-25-sshd-drive-fir...

vvn_black Перегрев скорее всего случался в старом тесном необдуваемом корпусе, задолго до случавшихся ошибок. Сейчас используется более просторный корпус с принудительным обдувом дисков.

Behem0th ★★★★★
(04.03.23 10:36:22 MSK) автор топика

Ссылка

Ответ на: комментарий от Behem0th 04.03.23 07:34:04 MSK

Посмотри на 183 атрибут, он изменился. Я говорю, выкидывай диск.

Black_Shadow ★★★★★
(04.03.23 10:40:18 MSK)
Последнее исправление: Black_Shadow 04.03.23 10:40:47 MSK (всего исправлений: 1)

Ответ на: комментарий от Behem0th 04.03.23 07:34:04 MSK

На всех трех проходах не было выявлено ни одного сбойного сектора, небыло и нестабильных. Поверхность диска идеальная, за все 500Гб секторов с откликом 200мс было всего с десяток.

За что меня какашками экзперды и закидали.

Остается шлейф и память?

183 единичку показал. Шлейф или контроллер. Что-то из этого всё таки мозги понемногу делает.

~~erfea~~ ★★★★★
(04.03.23 11:31:33 MSK)

Ответ на: комментарий от Black_Shadow 04.03.23 10:40:18 MSK

Посмотри на 183 атрибут, он изменился

А другие не изменились. Я не к тому, что диск норм, а к тому, что совет «выкидывать» на чём основан?

vvn_black ★★★★★
(04.03.23 11:43:46 MSK)

Ответ на: комментарий от erfea 04.03.23 11:31:33 MSK

При всех тестах использовался другой компьютер с другими контроллером и шлейфом.

Behem0th ★★★★★
(04.03.23 13:30:55 MSK) автор топика

Ответ на: комментарий от vvn_black 04.03.23 11:43:46 MSK

На том, что он дохлый.

Black_Shadow ★★★★★
(04.03.23 14:04:49 MSK)

Ссылка

Ответ на: комментарий от Behem0th 04.03.23 13:30:55 MSK

Ну тогда я бы всё же поставил новый шлейф и вернул диск взад. Если бы с какого-то перепоя посчитал что 2,5 inch SHDD на полтора терабайта зачем-то нужная штука, конечно)

~~erfea~~ ★★★★★
(04.03.23 14:12:15 MSK)

Ссылка

Ответ на: комментарий от erfea 04.03.23 11:31:33 MSK

183 единичку показал. Шлейф или контроллер. Что-то из этого всё таки мозги понемногу делает.

Очередные домыслы? Ни шлейф, ни контроллер не могут повлиять на 183 атрибут.

Black_Shadow ★★★★★
(04.03.23 14:12:53 MSK)

Ссылка

Ответ на: комментарий от Behem0th 04.03.23 07:34:04 MSK

Там где тестировали сообщения ядра (dmesg) не сохраняются? Чтобы понять, из-за чего вырос 183 параметр. https://www.smartmontools.org/ticket/816

Ещё можно во всём винить питание, не обязательно блок, может быть сам коннектор плохой. У меня один знакомы утвержал, что для хорошей работы нужно отрезать молекс и припаять провода напрямую к плате НЖМД.

mky ★★★★★
(05.03.23 04:55:00 MSK)
Последнее исправление: mky 05.03.23 04:58:42 MSK (всего исправлений: 1)

Ответ на: комментарий от mky 05.03.23 04:55:00 MSK

Там где тестировали сообщения ядра (dmesg) не сохраняются?

Виктория и MHDD не имеет версии под систему где существует dmesg.

Behem0th ★★★★★
(05.03.23 07:38:12 MSK) автор топика

Ответ на: комментарий от Behem0th 05.03.23 07:38:12 MSK

Еще есть whdd под линукс, но я,не знаю, насколько оно эффективное.

Khnazile ★★★★★
(05.03.23 07:57:03 MSK)

Ссылка

Ответ на: комментарий от intelfx 04.03.23 10:27:01 MSK

Этот 5й рэйд он по идее должен переживать выпадение одного диска. Как думаешь почему тогда все равно появились Uncorrectable?

Behem0th ★★★★★
(05.03.23 08:01:46 MSK) автор топика

Ответ на: комментарий от Behem0th 05.03.23 08:01:46 MSK

Потому что RAID5 в btrfs глючный, как бы там ни было. Активную работу с файлами в повреждённых страйпах он переживает очень плохо.

В 6.2 вот какие-то фиксы приехали.

intelfx ★★★★★
(05.03.23 08:06:16 MSK)

Ответ на: комментарий от intelfx 05.03.23 08:06:16 MSK

Может я просто попал на какую то регрессию?

После того как поменял разъем сата и шлейф с другим жестким. Запустил еще раз скруб на ночь. Проверив 50% он нашел еще один Uncorrectable. На данных которые не должны были менялись (торрент фаил).

Осталось проверить только вариант с питанием. БП я все равно собирался менять, просто сделаю это раньше.

Как лучше извлечь диск из рэйда? На живом рэйде сделать бтрфс девайс делет или отключить жесткий и на дегрейдет рейде делет сделать?

Behem0th ★★★★★
(05.03.23 08:42:02 MSK) автор топика

Ссылка

Для того чтобы оставить комментарий войдите или зарегистрируйтесь.

← 1 2 →

←	ntpd, unlink local addr, ВПН не спасает

Admin

Self hosted Captive Portal

→

Похожие темы