LINUX.ORG.RU
ФорумAdmin

Посыпался Samsung SSD 870 QVO 2TB

 , ,


0

4

Пишу из горящего танка. Комп внезапно перезагрузился во время активной записи на диск. В журнале ошибки:

июн 21 18:10:37 abc kernel: BTRFS warning (device sda1): csum failed root 318 ino 39231141 off 105160704 csum 0x75d6d775 expected csum 0x4a24269a mirror 1
июн 21 18:10:37 abc kernel: BTRFS error (device sda1): bdev /dev/sda1 errs: wr 0, rd 0, flush 0, corrupt 1, gen 0
июн 21 18:10:37 abc kernel: BTRFS warning (device sda1): csum failed root 318 ino 39231141 off 105164800 csum 0x8298fde5 expected csum 0x2d726d5d mirror 1

Выкидывать его или забить и продолжить использовать пока совсем плохо не станет? После перезагрузки пока что работает. Как узнать на каком файле произошла ошибка? trim регулярно запускается.

P.S. на этом диске у меня swap

P.S. P.S.

uname -a
Linux abc 6.3.4-arch1-1 #1 SMP PREEMPT_DYNAMIC Wed, 24 May 2023 17:44:00 +0000 x86_64 GNU/Linux

sudo smartctl -a /dev/sda              
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.3.4-arch1-1] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     Samsung SSD 870 QVO 2TB
Serial Number:    S5SUNF0NC11331N
LU WWN Device Id: 5 002538 f40c044dd
Firmware Version: SVQ01B6Q
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database 7.3/5319
ATA Version is:   ACS-4 T13/BSR INCITS 529 revision 5
SATA Version is:  SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Jun 21 18:12:46 2023 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x53) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 160) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       11228
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       525
177 Wear_Leveling_Count     0x0013   099   099   000    Pre-fail  Always       -       10
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   063   042   000    Old_age   Always       -       37
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       0
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       30
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       40050852631

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
  256        0    65535  Read_scanning was never started
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
★★★★★

Последнее исправление: ox55ff (всего исправлений: 1)

Ответ на: комментарий от ox55ff

А она и не нужна уже много лет как для обновления десктопных самсунгов. Самсунг (как и некоторые другие нормальные производители) выкладывает iso, которые можно подсунуть в grub-imageboot.

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 1)
Ответ на: комментарий от monkdt

дорогущий

Тащемта QVO – самая бомжовая серия самсунговских твердотельников, с самыми дрянными чипами.

Mobutu_Sese_Seko
()
Последнее исправление: Mobutu_Sese_Seko (всего исправлений: 1)
Ответ на: комментарий от greenman

Прогнал тесты. Ошибок нет.

sudo smartctl -l selftest /dev/sda
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.3.4-arch1-1] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     11234         -
# 2  Short offline       Completed without error       00%     11231         -
ox55ff ★★★★★
() автор топика
Ответ на: комментарий от anc

То же самое, что и в короткой версии. Или ты на что смотришь?

sudo smartctl -a /dev/sda
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.3.4-arch1-1] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     Samsung SSD 870 QVO 2TB
Serial Number:    S5SUNF0NC11331N
LU WWN Device Id: 5 002538 f40c044dd
Firmware Version: SVQ01B6Q
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database 7.3/5319
ATA Version is:   ACS-4 T13/BSR INCITS 529 revision 5
SATA Version is:  SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jun 22 09:12:28 2023 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x53) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 160) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       11236
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       526
177 Wear_Leveling_Count     0x0013   099   099   000    Pre-fail  Always       -       10
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   060   042   000    Old_age   Always       -       40
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       0
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       30
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       40089705503

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     11234         -
# 2  Short offline       Completed without error       00%     11231         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
  256        0    65535  Read_scanning was never started
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
ox55ff ★★★★★
() автор топика
Последнее исправление: ox55ff (всего исправлений: 2)
Ответ на: комментарий от ox55ff

Винды нет, чтобы обновиться.

Я прошивочную утилиту от Kingston на ноуте в live-образе оффтопика запускал. Хоть и сказала что SSD в новой прошивке не нуждается, но в остальном работала вполне корректно.

QsUPt7S ★★
()
Последнее исправление: QsUPt7S (всего исправлений: 1)
Ответ на: комментарий от QsUPt7S

Может быть дело в самой ФС?

Это не похоже на btrfs. Слышал в крайних ядрах XFS посыпалась из-за бага. Может сишные диды что-то на уровне блочных устройств или vfs сломали и это зацепило btrfs.

ox55ff ★★★★★
() автор топика
Ответ на: комментарий от krasnh

Мало кто помнит, но пост Потестируйте мою игрушку? первоначально начинался не с «Потестируйте», а «Погоняйте».
Причем ТС, как человек далекий от определенных кругов, всего лишь программист, даже не понял причину «бедствия». 😀 А там начался Ад и Израиль, так что «Плоть у тебя крайняя», упомянутое в комменте выше, цветочки в сравнении.
Тс помнится даже удалял тему и вроде хотел попрощаться, но админы все исправили - что надо потерли, кого надо наказали…

krasnh ★★★
()
Ответ на: комментарий от router
sudo smartctl -l devstat /dev/sda
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.3.4-arch1-1] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

Device Statistics (GP Log 0x04)
Page  Offset Size        Value Flags Description
0x01  =====  =               =  ===  == General Statistics (rev 1) ==
0x01  0x008  4             526  ---  Lifetime Power-On Resets
0x01  0x010  4           11240  ---  Power-on Hours
0x01  0x018  6     40169518095  ---  Logical Sectors Written
0x01  0x020  6       744846196  ---  Number of Write Commands
0x01  0x028  6     18921815895  ---  Logical Sectors Read
0x01  0x030  6       151000107  ---  Number of Read Commands
0x01  0x038  6         2111000  ---  Date and Time TimeStamp
0x04  =====  =               =  ===  == General Errors Statistics (rev 1) ==
0x04  0x008  4               0  ---  Number of Reported Uncorrectable Errors
0x04  0x010  4               7  ---  Resets Between Cmd Acceptance and Completion
0x05  =====  =               =  ===  == Temperature Statistics (rev 1) ==
0x05  0x008  1              34  ---  Current Temperature
0x05  0x020  1              58  ---  Highest Temperature
0x05  0x028  1              27  ---  Lowest Temperature
0x05  0x058  1              70  ---  Specified Maximum Operating Temperature
0x06  =====  =               =  ===  == Transport Statistics (rev 1) ==
0x06  0x008  4            1087  ---  Number of Hardware Resets
0x06  0x010  4               0  ---  Number of ASR Events
0x06  0x018  4               0  ---  Number of Interface CRC Errors
0x07  =====  =               =  ===  == Solid State Device Statistics (rev 1) ==
0x07  0x008  1               1  N--  Percentage Used Endurance Indicator
                                |||_ C monitored condition met
                                ||__ D supports DSN
                                |___ N normalized value
ox55ff ★★★★★
() автор топика
Ответ на: комментарий от ox55ff

Не спеши с выводами. Смарт не даст 100% гарантии, что диск живой.

Судя по тому, что ты делал с фс - ты наткнулся на очередной непротестированный никем edge case самой btrfs, что мягко говоря неудивительно, учитывая переусложненность этой файловой системы. Я вообще не думаю, что она когда-либо станет стабильной, потому что обмазана костылями и подпорками по самое небалуйся, и когда чинят что-то одно - отламывается что-то еще сразу в нескольких местах, так как на этот баг были завязаны другие костыли, закрывающие другие баги. Редхат не зря её выкинул - этот код надо полностью переписывать с нуля.

pekmop1024 ★★★★★
()
Ответ на: комментарий от ox55ff

В вас пропал дух авантюризма.

На днях у меня был ноутбук с Убунтой ЛТС в дуалбуте с Виндой 10. Основная была Винда (Линукс в дуалбуте я всегда ставлю на всякий случай). И черт меня дернул обновить Убунту до последней 23.04. Все прошло успешно, только вот Убунта прекратила загружаться, сообщала что-то про ACPI Error. И в этот момент я вдруг понял две вещи:

  1. Я в рот шатал авантюризм и сюрпризы;
  2. Убунта не такая беспроблемная, как я думал;
  3. Переустановить Линукс занимает не так долго как я думал (хоть и делал это много раз).

Накатил вместо нее Федорку и забил.

Поэтому в ближайшее время я пробовать btrfs на железе не буду (хоть и очень хочу), т.к. нет ничего хуже проблем оттуда, откуда их совсем не ждешь. Хуже только проблемы в неудачное время (а какое время удачное?). Файловая система – это не то место, где я хочу проблем.

MoldAndLimeHoney
()
Ответ на: комментарий от router

когда электрики отключили питание

Нет. Уже как несколько месяцев комп подключен через ИБП. До этого были внезапные отключения электричества. Собственно поэтому я и купил ИБП.

Опять же. У меня комп ушёл в перезагрузку. От простого повреждения файла такого не будет. Будет просто io ошибка. Возможно битый сектор диска оказался под swap файлом.

ox55ff ★★★★★
() автор топика
Ответ на: комментарий от QsUPt7S

К слову, у XFS действительно недавно были проблемы

Мне кажется у XFS – специфичное серверное применение, когда огромные объемы данных/файлов. Для десктопа она нафиг не нужна, хотя бы потому что не может быть уменьшена.

MoldAndLimeHoney
()
Ответ на: комментарий от ox55ff

Опять же. У меня комп ушёл в перезагрузку. От простого повреждения файла такого не будет. Будет просто io ошибка. Возможно битый сектор диска оказался под swap файлом.

Kernel panic вполне себе отправляет комп в перезагрузку, если не настроено иного (на арчике - дефолт, емнип). А драйвер файловой системы, в свою очередь, способен без затей отправить в kernel panic само ядро.

pekmop1024 ★★★★★
()
Ответ на: комментарий от MoldAndLimeHoney

Нет. Подожду, погляжу. Как совсем плохо станет, то перекачусь на новый.

Btrfs очень устойчивая фс. Даже если диск посыпется, то я смогу файлы выдернуть. Инфа сотка. У меня был нежданчик с бракованным nvme с озона. Я перенёс туда файлы и диск умер. В системе перестал определятся. ФС была btrfs. На следующий день вытащил файлы.

Так же btrfs у меня пережила битую оперативку. Там прям реально были ошибки на ФС и комп не загружался. После btrfs rescue chunk-recover ФС ожила: Купил RAM: рандомные краши программ и сдохшая ФС (комментарий)

BTRFS БРОНЯ!!!!

ox55ff ★★★★★
() автор топика
Ответ на: комментарий от ox55ff

Нет. Уже как несколько месяцев комп подключен через ИБП. До этого были внезапные отключения электричества.

Когда-то очень давно, когда я был в гостях у бабушки вместе со своим первым десктопом, подключённым к сети через сетевой фильтр и ИБП, я регулярно ловил внезапные перезагрузки при старте и окончании работы древнего холодильника, подключённого к другой линии питания в другой комнате. ИБП - не панацея.

QsUPt7S ★★
()
Ответ на: комментарий от ox55ff

Даже если диск посыпется, то я смогу файлы выдернуть.

Если сдохнет контроллер, то далеко не факт.

Люди делятся на две категории - те, кто ещё не делает бекапы, и те, кто их уже делает. (c)

QsUPt7S ★★
()
Последнее исправление: QsUPt7S (всего исправлений: 1)