LINUX.ORG.RU
ФорумAdmin

Посыпался Samsung SSD 870 QVO 2TB

 , ,


0

4

Пишу из горящего танка. Комп внезапно перезагрузился во время активной записи на диск. В журнале ошибки:

июн 21 18:10:37 abc kernel: BTRFS warning (device sda1): csum failed root 318 ino 39231141 off 105160704 csum 0x75d6d775 expected csum 0x4a24269a mirror 1
июн 21 18:10:37 abc kernel: BTRFS error (device sda1): bdev /dev/sda1 errs: wr 0, rd 0, flush 0, corrupt 1, gen 0
июн 21 18:10:37 abc kernel: BTRFS warning (device sda1): csum failed root 318 ino 39231141 off 105164800 csum 0x8298fde5 expected csum 0x2d726d5d mirror 1

Выкидывать его или забить и продолжить использовать пока совсем плохо не станет? После перезагрузки пока что работает. Как узнать на каком файле произошла ошибка? trim регулярно запускается.

P.S. на этом диске у меня swap

P.S. P.S.

uname -a
Linux abc 6.3.4-arch1-1 #1 SMP PREEMPT_DYNAMIC Wed, 24 May 2023 17:44:00 +0000 x86_64 GNU/Linux

sudo smartctl -a /dev/sda              
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.3.4-arch1-1] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Samsung based SSDs
Device Model:     Samsung SSD 870 QVO 2TB
Serial Number:    S5SUNF0NC11331N
LU WWN Device Id: 5 002538 f40c044dd
Firmware Version: SVQ01B6Q
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
TRIM Command:     Available, deterministic, zeroed
Device is:        In smartctl database 7.3/5319
ATA Version is:   ACS-4 T13/BSR INCITS 529 revision 5
SATA Version is:  SATA 3.3, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Jun 21 18:12:46 2023 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x53) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 160) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       11228
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       525
177 Wear_Leveling_Count     0x0013   099   099   000    Pre-fail  Always       -       10
179 Used_Rsvd_Blk_Cnt_Tot   0x0013   100   100   010    Pre-fail  Always       -       0
181 Program_Fail_Cnt_Total  0x0032   100   100   010    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   010    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0013   100   100   010    Pre-fail  Always       -       0
187 Uncorrectable_Error_Cnt 0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0032   063   042   000    Old_age   Always       -       37
195 ECC_Error_Rate          0x001a   200   200   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       0
235 POR_Recovery_Count      0x0012   099   099   000    Old_age   Always       -       30
241 Total_LBAs_Written      0x0032   099   099   000    Old_age   Always       -       40050852631

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
  256        0    65535  Read_scanning was never started
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
★★★★★

Последнее исправление: ox55ff (всего исправлений: 1)
Ответ на: комментарий от Shushundr

в ext2 нет журнала, и это хорошо именно для этого диска - уменьшается его использование на запись (wearing).

… а также появляется киллер-фича развала фс при внезапном отключении питания.

QsUPt7S ★★
()
Ответ на: комментарий от QsUPt7S

эта ерундовый вопрос, который решается ИБП. А смена батарей - календарём и заменой по расписанию. Если уж есть бекапы, значит и об этом подумали, это всё тоже должно уже быть.

Shushundr ★★★★
()
Ответ на: комментарий от Shushundr

эта ерундовый вопрос, который решается ИБП.

Ну ценник ИБП нельзя назвать ерундовым. Хотя если вы рассматриваете варианты а-ля бэки, то это «ерундовый» который не решит «вопрос».

anc ★★★★★
()
Ответ на: комментарий от QsUPt7S

Я же говорил, что ИБП - не панацея. Только что кот запрыгнул на ИБП, во время прыжка, каким-то образом сумел задеть утопленную кнопку, и вырубил питание системы к чертям собачьим…

QsUPt7S ★★
()
Ответ на: комментарий от QsUPt7S

Только что кот запрыгнул на ИБП, во время прыжка, каким-то образом сумел задеть утопленную кнопку

Котэ должен быть очень продвинутым, утоленную кнопочку ещё подержать нужно.

anc ★★★★★
()
Ответ на: комментарий от anc

Какая модель?

Crown CMU-SP1200

При включении подачи питания на нагрузку, кнопочка на фронтальной панели притапливается. Для выключения нужно нажать ещё раз, что кот во время прыжка и сделал.

QsUPt7S ★★
()
Ответ на: комментарий от pekmop1024

Котэ скорее всего не прыгал, а чесал морду о выступающие части.

Именно запрыгнул. Я в этот момент за клавиатурой был. ИБП стоит рядом на тумбочке. Кот на него часто запрыгивает и лежит - греется. В первый раз так «удачно» запрыгнул.

QsUPt7S ★★
()
Ответ на: комментарий от QsUPt7S

ИБП ... на тумбочке.

Забавно.

В первый раз так «удачно» запрыгнул.

Возможно грабельки в дешманстве самого ИБП, а с учетом того, что на первое место ставят «Стильный дизайн» дешманства там во все поля.

anc ★★★★★
()
Ответ на: комментарий от vbr

XFS использовать вне ядер RHEL и клонов - это такая форма ССЗБ. Потому что XFS пилится внутри RH исключительно для RHEL, и хотя они в апстрим этот код контрибьютят, никто его толком не тестит на mainline. Потому раз в несколько лет у тех, кто использует xfs@mainline, она превращается в тыкву пространство, заполненное мусором.

pekmop1024 ★★★★★
()
Ответ на: комментарий от pekmop1024

Вообще, за пределами каких-то специфических юзкейсов использование чего-то отличного от ext4 (при необходимости добиваемой dm-crypt’ом, mdraid’ом и lvm до нужного функционала) на ванильке или околованильке - ничем не оправданно, и даже на RHEL и клонах стоит трижды подумать и спросить себя «а зачем я это делаю и в чем мой профит», когда уходишь с этой связки.

pekmop1024 ★★★★★
()
Ответ на: комментарий от pekmop1024

У xfs есть copy on write для копирования файлов. Это киллер-фича, без которой жить грустно. Для справедливости отмечу, что у ext4 есть киллер-фича - shrink. В общем что больше нужно, то и надо выбирать.

А в тыкву xfs не превращается. Очень надёжная файловая система.

vbr ★★★★
()
Ответ на: комментарий от vbr

У xfs есть copy on write для копирования файлов. Это киллер-фича, без которой жить грустно. Для справедливости отмечу, что у ext4 есть киллер-фича - shrink.

В btrfs есть и то, и другое - выбирай её.

NyXzOr ★★★★
()
Ответ на: комментарий от NyXzOr

В теме про то, как btrfs развалилась от выключения питания ты советуешь выбирать её? Смешно. btrfs не рассматриваю ни для каких применений. Её поезд ушёл, моё доверие она давно потеряла.

Перспективна bcachefs, но для стабилизации ей ещё надо лет 10-15. Подождём, посмотрим, что получится.

vbr ★★★★
()
Последнее исправление: vbr (всего исправлений: 3)
Ответ на: комментарий от vbr

btrfs развалилась от выключения питания

Ты вообще читал тему? У меня ибп. Никакого отключения питания не было.

Ты живёшь в манямирке. В драйвере Xfs, котору ты нахваливаешь, нашли баг из-за которого она посыпалась у людей. Я тебе ссылку прислал. Потом выдумал отключение питания, которого не было. Очнись.

ox55ff ★★★★★
() автор топика
Ответ на: комментарий от ox55ff

У тебя комп перезагрузился. Это то же, что и потеря питания для ФС. Есть у тебя ИБП или нет, в данном случае значения не имеет. ФС не перенесла выключения питания и рассыпалась. Ну и о чём тут ещё говорить.

vbr ★★★★
()
Ответ на: комментарий от vbr

ФС не перенесла выключения питания

Интересно, сколько раз нужно выключить питание (хард ресетнуть), чтобы она развалилась? Один раз точно пережила. Виртуалки постоянно так тушу, в том числе и с btrfs.

NyXzOr ★★★★
()
Ответ на: комментарий от NyXzOr

Мне кажется там не одно что-то, а сочетание каких-то нескольких факторов сильно повышает риск разрушения. Наверное это сочетание даже не сильно часто происходит, иначе бы сообщений о проблемах было гораздо больше. Но отрицать проблемы – это нужно быть совсем слепым фанатом.

MoldAndLimeHoney
()
Ответ на: комментарий от vbr

Потому, что моментально работающий cp на большие файлы это очень удобно и я к этому привык.

Со скоростями NVMe вопрос мягко говоря не актуален. Или ты каждый день гоняешь сотни гигабайт туда-сюда?

pekmop1024 ★★★★★
()
Ответ на: комментарий от vbr

Ты продолжаешь бредить и игнорировать мои сообщения. Это произошло у меня на компе. Я первоисточник. Не надо додумывать. У меня сначала в журнале появились io ошибки и только потом произошла перезагрузка. Ещё раз. Сначала io ошибки потом перезагрузка. Да-да. Именно в такой последовательности. Серьёзно. Точно точно.

На всякий случай ещё раз. Сначала io ошибки, потом перезагрузка. Я смотрел по времени в логах.

Это всё намекает на баг в ssd.

ox55ff ★★★★★
() автор топика
Ответ на: комментарий от ox55ff

Учитывая то, что 02 прошивка для 870 evo фиксила какие-то проблемы, можно попробовать сделать аналогию, что 02 прошивка для 870 qvo делает что-то похожее. Да и вообще, она вышла уже чуть ли не 3 года назад, надо следить.

Dimez ★★★★★
()
Ответ на: комментарий от MagicMirror

А вот с объёмами и ценой NVMe актуален как никогда.

Окстись, четверка стоит 250 денег (и это если еще не брать QLC). Единички уже по цене похода в кабак на двоих.

pekmop1024 ★★★★★
()
Ответ на: комментарий от MoldAndLimeHoney

SSD Samsung OEM-серии PM, которые используются в основном либо в серверном сегменте, либо (те что попроще) ставят в бизнес-лаптопы. Я не припомню ни одной проблемы с ними, типа как недавно было с 980/990 или в седые времена с 840.

pekmop1024 ★★★★★
()

Уже несколько дней наблюдаю новый симптом. Система иногда фризится на несколько секунд. Обычно происходит в браузере при переходе на вкладку. Сегодня поймал в PyCharm. Где-то в диске дырка протёрлась.

ox55ff ★★★★★
() автор топика