Предистория: Неадекватная работа NVME SSD в mdadm RAID 1 + cryptsetup, Debian 11
С нестабильной работой NVME SSD (в случае если оно продолжает работать) вроде удалось справиться, но другая проблема еще пока не исчезла. А именно - внезапное выпадание SSD из системы. SSD внезапно вылетает и исчезает как диск. Вот как выглядит dmesg:
[710667.260705] nvme nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0x10
[710667.336682] nvme 0000:05:00.0: enabling device (0000 -> 0002)
[710667.336854] nvme nvme0: Removing after probe failure status: -19
[710667.364752] print_req_error: 11 callbacks suppressed
[710667.364754] md/raid1:md128: nvme0n1p2: rescheduling sector 1281554816
[710667.364757] blk_update_request: I/O error, dev nvme0n1, sector 1150584136 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
[710667.364758] md/raid1:md128: nvme0n1p2: rescheduling sector 1250693120
[710667.364762] md/raid1:md128: nvme0n1p2: rescheduling sector 723332600
[710667.364764] md/raid1:md128: nvme0n1p2: rescheduling sector 1149533512
[710667.364768] blk_update_request: I/O error, dev nvme0n1, sector 1704508672 op 0x0:(READ) flags 0x0 phys_seg 16 prio class 0
[710667.364771] md/raid1:md128: nvme0n1p2: rescheduling sector 1703458048
[710667.364775] blk_update_request: I/O error, dev nvme0n1, sector 7814035424 op 0x1:(WRITE) flags 0x20800 phys_seg 1 prio class 0
[710667.364778] md: super_written gets error=-5
[710667.364781] md/raid1:md128: Disk failure on nvme0n1p2, disabling device.
md/raid1:md128: Operation continuing on 1 devices.
[710667.364795] blk_update_request: I/O error, dev nvme0n1, sector 7814035424 op 0x1:(WRITE) flags 0x20800 phys_seg 1 prio class 0
[710667.364796] md: super_written gets error=-5
[710667.426858] FAT-fs (nvme0n1p3): unable to read boot sector to mark fs as dirty
[710667.901536] md/raid1:md128: redirecting sector 1250693120 to other mirror: sda2
[710667.920542] md/raid1:md128: redirecting sector 723332600 to other mirror: sda2
[710667.934194] md/raid1:md128: redirecting sector 1149533512 to other mirror: sda2
[710667.969598] md/raid1:md128: redirecting sector 1703458048 to other mirror: sda2
[710668.009764] md/raid1:md128: redirecting sector 1281554816 to other mirror: sda2
[710672.584743] md/raid1:md127: Disk failure on nvme0n1p1, disabling device.
md/raid1:md127: Operation continuing on 1 devices.
Как видите, RAID1 (mdadm) не дает системе полностью сломаться и она продолжает работу на одном HDD-зеркале. В lspci SSD не пропадает, но как диск система его видит только после перезагрузки. Вылет NVME SSD возможен как вскоре после загрузки, так и через неделю аптайма. Какими могут быть причины?
Обновление 1
Сделал утилиту проверки температуры нвме. Измеряет каждую секунду. На момент вылета 41 градус и до того тишь и гладь часами напролет. Рост температуры вначале - из-за синхронизации нвме с жестким диском (восстановление RAID1 mdadm после прошлого вылета). Радиатор думаю купить, но вылеты, очевидно, не из-за температуры (температура разве что замедляет работу).
Скрины утилиты (то самое мое любимое визуальное программирование):
Подфункция, вызывающая smartctl и возвращающая температуру после парсинга:
Вот что показывает lspci:
05:00.0 Non-Volatile memory controller: Realtek Semiconductor Co., Ltd. RTS5763DL NVMe SSD Controller (rev 01)
Контроллер ADATA XPG SX8100 4TB, вот такой: https://www.amazon.com/XPG-SX8100-Gen3x4-3000MB-ASX8100NP-4TT-C/dp/B08979DF1S