Вылетает nvme ssd

0

1

Предистория: Неадекватная работа NVME SSD в mdadm RAID 1 + cryptsetup, Debian 11

С нестабильной работой NVME SSD (в случае если оно продолжает работать) вроде удалось справиться, но другая проблема еще пока не исчезла. А именно - внезапное выпадание SSD из системы. SSD внезапно вылетает и исчезает как диск. Вот как выглядит dmesg:

[710667.260705] nvme nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
[710667.336682] nvme 0000:05:00.0: enabling device (0000 -> 0002)
[710667.336854] nvme nvme0: Removing after probe failure status: -19
[710667.364752] print_req_error: 11 callbacks suppressed
[710667.364754] md/raid1:md128: nvme0n1p2: rescheduling sector 1281554816
[710667.364757] blk_update_request: I/O error, dev nvme0n1, sector 1150584136 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[710667.364758] md/raid1:md128: nvme0n1p2: rescheduling sector 1250693120
[710667.364762] md/raid1:md128: nvme0n1p2: rescheduling sector 723332600
[710667.364764] md/raid1:md128: nvme0n1p2: rescheduling sector 1149533512
[710667.364768] blk_update_request: I/O error, dev nvme0n1, sector 1704508672 op 0x0:(READ) flags 0x0 phys_seg 16 prio class 0
[710667.364771] md/raid1:md128: nvme0n1p2: rescheduling sector 1703458048
[710667.364775] blk_update_request: I/O error, dev nvme0n1, sector 7814035424 op 0x1:(WRITE) flags 0x20800 phys_seg 1 prio class 0
[710667.364778] md: super_written gets error=-5
[710667.364781] md/raid1:md128: Disk failure on nvme0n1p2, disabling device.
                md/raid1:md128: Operation continuing on 1 devices.
[710667.364795] blk_update_request: I/O error, dev nvme0n1, sector 7814035424 op 0x1:(WRITE) flags 0x20800 phys_seg 1 prio class 0
[710667.364796] md: super_written gets error=-5
[710667.426858] FAT-fs (nvme0n1p3): unable to read boot sector to mark fs as dirty
[710667.901536] md/raid1:md128: redirecting sector 1250693120 to other mirror: sda2
[710667.920542] md/raid1:md128: redirecting sector 723332600 to other mirror: sda2
[710667.934194] md/raid1:md128: redirecting sector 1149533512 to other mirror: sda2
[710667.969598] md/raid1:md128: redirecting sector 1703458048 to other mirror: sda2
[710668.009764] md/raid1:md128: redirecting sector 1281554816 to other mirror: sda2
[710672.584743] md/raid1:md127: Disk failure on nvme0n1p1, disabling device.
                md/raid1:md127: Operation continuing on 1 devices.

Как видите, RAID1 (mdadm) не дает системе полностью сломаться и она продолжает работу на одном HDD-зеркале. В lspci SSD не пропадает, но как диск система его видит только после перезагрузки. Вылет NVME SSD возможен как вскоре после загрузки, так и через неделю аптайма. Какими могут быть причины?

Обновление 1

Сделал утилиту проверки температуры нвме. Измеряет каждую секунду. На момент вылета 41 градус и до того тишь и гладь часами напролет. Рост температуры вначале - из-за синхронизации нвме с жестким диском (восстановление RAID1 mdadm после прошлого вылета). Радиатор думаю купить, но вылеты, очевидно, не из-за температуры (температура разве что замедляет работу).

Скрины утилиты (то самое мое любимое визуальное программирование):

https://postimg.cc/mhZj0Db6

https://postimg.cc/jCr0Ny4n

Подфункция, вызывающая smartctl и возвращающая температуру после парсинга:

https://postimg.cc/Rqj3wsbQ

Вот что показывает lspci:

05:00.0 Non-Volatile memory controller: Realtek Semiconductor Co., Ltd. RTS5763DL NVMe SSD Controller (rev 01)

Контроллер ADATA XPG SX8100 4TB, вот такой: https://www.amazon.com/XPG-SX8100-Gen3x4-3000MB-ASX8100NP-4TT-C/dp/B08979DF1S

Ссылка

←	Обновление процессора (I5 9400F на I7 9700F)

S.M.A.R.T.: SELF-TEST FAILED

→

[710667.260705] nvme nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
[710667.336682] nvme 0000:05:00.0: enabling device (0000 -> 0002)
[710667.336854] nvme nvme0: Removing after probe failure status: -19

Ну вот они твои причины - контроллер перестает отвечать ядру и ядро его катапультирует. Почему контроллер перестает отвечать ядру? Можно попробовать погадать. Поискать свою модель нвме - нет ли системного косяка с этой моделью, с чипами которые лепят на эту модель, если нету - не значит что это тебя не коснулось, это может быть дефект экземпляра. А может быть там есть новая фирмварь для твоего нвме? А еще нвме очень любят греться, тоже фактор. Что там с нагрузкой и датчика температуры на моменты отвалов? Поищи корреляции.

slowpony ★★★★★
(06.12.21 04:12:02 MSK)

Модель SSD и материнской платы?

anonymous
(06.12.21 09:57:11 MSK)

Ссылка

Ты реально настолько конченый шизик, что за три треда так и не указал модель SSD в топике, или я просто проглядел?

~~WitcherGeralt~~ ★★
(06.12.21 10:12:53 MSK)

На NVME SSD лучше поставить радиатор, если штатного нет.

petyanamlt ★★★☆
(06.12.21 13:16:59 MSK)

Ответ на: комментарий от WitcherGeralt 06.12.21 10:12:53 MSK

ему стыдно за дзинь хуань

anonymous
(06.12.21 13:22:15 MSK)

Ответ на: комментарий от anonymous 06.12.21 13:22:15 MSK

В одной из предыдущих тем писали, что он якобы боится деанонимизации. Если так, то поехавший какой-то.

anonymous
(06.12.21 13:31:56 MSK)

Ответ на: комментарий от slowpony 06.12.21 04:12:02 MSK

Сделал утилиту проверки температуры нвме. Измеряет каждую секунду На момент вылета 41 градус и до того тишь и гладь часами напролет. Рост температуры вначале - из-за синхронизации нвме с жестким диском (восстановление RAID1 mdadm после прошлого вылета). Радиатор думаю купить, но вылеты, очевидно, не из-за температуры (температура разве что замедляет работу).

Скрины утилиты (то самое мое любимое визуальное программирование):

https://postimg.cc/mhZj0Db6

https://postimg.cc/jCr0Ny4n

Подфункция, вызывающая smartctl и возвращающая температуру после парсинга:

https://postimg.cc/Rqj3wsbQ

Вот что показывает lspci:

05:00.0 Non-Volatile memory controller: Realtek Semiconductor Co., Ltd. RTS5763DL NVMe SSD Controller (rev 01)

Контроллер ADATA XPG SX8100 4TB, вот такой: https://www.amazon.com/XPG-SX8100-Gen3x4-3000MB-ASX8100NP-4TT-C/dp/B08979DF1S

~~metaprog~~ ☆
(06.12.21 13:33:23 MSK) автор топика

Ответ на: комментарий от petyanamlt 06.12.21 13:16:59 MSK

Как выяснилось, вылетать оно может и в холодном состоянии (41 градус).

~~metaprog~~ ☆
(06.12.21 13:37:03 MSK) автор топика

Ответ на: комментарий от metaprog 06.12.21 13:33:23 MSK

Контроллеры Realtek для SSD не то чтобы ужасны, но это совсем бюджетный сегмент. Плюс возможны проблемы именно с линуксом, у WD такое было, вроде починили.

anonymous
(06.12.21 13:38:04 MSK)

Ответ на: комментарий от anonymous 06.12.21 13:38:04 MSK

Контроллеры Realtek для SSD не то чтобы ужасны, но это совсем бюджетный сегмент

Да, он стоил 11 тысяч грн за 4 терабайта против 18 тысяч за другие бренды.

~~metaprog~~ ☆
(06.12.21 13:56:04 MSK) автор топика

Ответ на: комментарий от metaprog 06.12.21 13:56:04 MSK

Ну понятно, что дешевле. Могу только посоветовать гуглить сообщение из dmesg. Иногда есть параметры ядра, помогающие с некоторыми проблемами. Например, отключающие энергосбережение. Также можно написать в багзиллу ядра.

anonymous
(06.12.21 14:12:24 MSK)

Ответ на: комментарий от metaprog 06.12.21 13:33:23 MSK

Зачем в теме, не относящейся к говнопрогу, писать про него?

anonymous
(06.12.21 14:14:22 MSK)

Перегрев может много бед натворить …

anonymous
(06.12.21 14:14:22 MSK)

Ссылка

Ответ на: комментарий от petyanamlt 06.12.21 13:16:59 MSK

гнусные инсинуации. там контрллеры на arm, который, как известно, не греется

anonymous
(06.12.21 14:17:35 MSK)

Ответ на: комментарий от metaprog 06.12.21 13:33:23 MSK

Сделал утилиту проверки температуры нвме.

Понятно …

anonymous
(06.12.21 14:17:56 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.12.21 14:12:24 MSK

Например, отключающие энергосбережение

Уже отключил APST в параметрах ядра. Помогло убрать большую часть тормозов во время работы, но не помогает от случайных вылетов. Неадекватная работа NVME SSD в mdadm RAID 1 + cryptsetup, Debian 11 (комментарий)

~~metaprog~~ ☆
(06.12.21 14:20:24 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 06.12.21 14:17:35 MSK

У меня на самсунге контроллер грелся так, что палец не возможно долго держать.

petyanamlt ★★★☆
(06.12.21 14:34:45 MSK)

Ссылка

Ответ на: комментарий от metaprog 06.12.21 13:37:03 MSK

Возможно брак

petyanamlt ★★★☆
(06.12.21 14:35:36 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.12.21 13:31:56 MSK

Деанонимизации по модели SSD?

o.O

apt_install_lrzsz ★★★★
(06.12.21 21:13:15 MSK)

Ссылка

Ответ на: комментарий от WitcherGeralt 06.12.21 10:12:53 MSK

Он, конечно, шизик, но здесь в шапке модель указал — ADATA XPG SX8100.

anonymous
(07.12.21 11:41:44 MSK)

Ответ на: комментарий от anonymous 06.12.21 14:14:22 MSK

Реклама лишней не бывает, донаты сами не соберутся.

anonymous
(07.12.21 12:03:38 MSK)

Ссылка

Ответ на: комментарий от anonymous 07.12.21 11:41:44 MSK

Указал под гнётом общественного давления, видать. Изначально не указал.

~~WitcherGeralt~~ ★★
(07.12.21 14:21:00 MSK)

Ответ на: комментарий от WitcherGeralt 07.12.21 14:21:00 MSK

Указал под гнётом общественного давления

Ага, по требованию SJW в твоем лице. Нихрена подобного. Исключительно в ответ на адекватный пост, где четко указано, что проблема может крыться в конкретной модели: Вылетает nvme ssd (комментарий)

~~metaprog~~ ☆
(07.12.21 18:58:50 MSK) автор топика