LINUX.ORG.RU

Накрывается диск? critical medium error, dev nvme1n1

 


0

2

Здравствуйте.

В серваке, в RAID0 установлен такой диск. Файлопомока. В один момент начались тормоза. Смотрю логи в логах ошибки. Ребутнул комп. Ошибок нет. Что это было? Диск накрывается?

root@fserver:~# nvme smart-log -H /dev/nvme1n1
Smart Log for NVME device:nvme1n1 namespace-id:ffffffff
critical_warning                        : 0
      Available Spare[0]             : 0
      Temp. Threshold[1]             : 0
      NVM subsystem Reliability[2]   : 0
      Read-only[3]                   : 0
      Volatile mem. backup failed[4] : 0
      Persistent Mem. RO[5]          : 0
temperature                             : 41°C (314 Kelvin)
available_spare                         : 100%
available_spare_threshold               : 1%
percentage_used                         : 1%
endurance group critical warning summary: 0
Data Units Read                         : 396,890,330 (203.21 TB)
Data Units Written                      : 9,853,779 (5.05 TB)
host_read_commands                      : 2,139,154,332
host_write_commands                     : 17,575,839
controller_busy_time                    : 5,678
power_cycles                            : 107
power_on_hours                          : 7,230
unsafe_shutdowns                        : 27
media_errors                            : 208
num_err_log_entries                     : 0
Warning Temperature Time                : 0
Critical Composite Temperature Time     : 0
Temperature Sensor 1           : 41°C (314 Kelvin)
Temperature Sensor 2           : 36°C (309 Kelvin)
Thermal Management T1 Trans Count       : 0
Thermal Management T2 Trans Count       : 0
Thermal Management T1 Total Time        : 0
Thermal Management T2 Total Time        : 0
root@fserver:~# smartctl -a /dev/nvme1n1
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.0-17-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Netac NVMe SSD 1TB
Serial Number:                      AA202303201TB2122149
Firmware Version:                   SN10380
PCI Vendor/Subsystem ID:            0x1f40
IEEE OUI Identifier:                0x000000
Total NVM Capacity:                 1,000,204,886,016 [1.00 TB]
Unallocated NVM Capacity:           0
Controller ID:                      0
NVMe Version:                       1.4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,000,204,886,016 [1.00 TB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            000000 1002122149
Local Time is:                      Sun Apr 14 10:25:55 2024 MSK
Firmware Updates (0x1a):            5 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x001f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat
Log Page Attributes (0x02):         Cmd_Eff_Lg
Maximum Data Transfer Size:         128 Pages
Warning  Comp. Temp. Threshold:     90 Celsius
Critical Comp. Temp. Threshold:     95 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     6.50W       -        -    0  0  0  0        0       0
 1 +     5.80W       -        -    1  1  1  1        0       0
 2 +     3.60W       -        -    2  2  2  2        0       0
 3 -   0.0500W       -        -    3  3  3  3     5000   10000
 4 -   0.0025W       -        -    4  4  4  4     8000   45000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        41 Celsius
Available Spare:                    100%
Available Spare Threshold:          1%
Percentage Used:                    1%
Data Units Read:                    396,890,345 [203 TB]
Data Units Written:                 9,853,779 [5.04 TB]
Host Read Commands:                 2,139,154,388
Host Write Commands:                17,575,843
Controller Busy Time:               5,678
Power Cycles:                       107
Power On Hours:                     7,230
Unsafe Shutdowns:                   27
Media and Data Integrity Errors:    208
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               41 Celsius
Temperature Sensor 2:               36 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged

root@fserver:~#
2024-04-13T17:11:12.320346+03:00 fserver kernel: [ 2006.314191] bio error: 00000000d40cf897,  err: 10
2024-04-13T17:11:12.372348+03:00 fserver kernel: [ 2006.364467] bio error: 000000002acff031,  err: 10
2024-04-13T17:11:12.420345+03:00 fserver kernel: [ 2006.414736] bio error: 000000000c3ed364,  err: 10
2024-04-13T17:11:12.472348+03:00 fserver kernel: [ 2006.465003] bio error: 0000000029aa643d,  err: 10
2024-04-13T17:11:12.520343+03:00 fserver kernel: [ 2006.515271] bio error: 000000005bb22c65,  err: 10
2024-04-13T17:11:12.576347+03:00 fserver kernel: [ 2006.568341] bio error: 00000000d40cf897,  err: 10
2024-04-13T17:11:12.624346+03:00 fserver kernel: [ 2006.618607] bio error: 0000000012d26e20,  err: 10
2024-04-13T17:11:12.676347+03:00 fserver kernel: [ 2006.668879] bio error: 000000001a4241e1,  err: 10
2024-04-13T17:11:12.724351+03:00 fserver kernel: [ 2006.719151] bio error: 0000000060be55b7,  err: 10
2024-04-13T17:11:12.776367+03:00 fserver kernel: [ 2006.769420] bio error: 0000000091ee7981,  err: 10
2024-04-13T17:11:12.828352+03:00 fserver kernel: [ 2006.821091] bio error: 00000000d40cf897,  err: 10
2024-04-13T17:11:12.876344+03:00 fserver kernel: [ 2006.871359] bio error: 000000000b59f085,  err: 10
2024-04-13T17:11:12.928345+03:00 fserver kernel: [ 2006.921633] bio error: 0000000018df5589,  err: 10
2024-04-13T17:11:12.980347+03:00 fserver kernel: [ 2006.971902] bio error: 000000002fa9a130,  err: 10
2024-04-13T17:11:13.028353+03:00 fserver kernel: [ 2007.022174] bio error: 000000002fa9a130,  err: 10
2024-04-13T17:11:13.080347+03:00 fserver kernel: [ 2007.072446] bio error: 0000000018df5589,  err: 10
2024-04-13T17:11:13.130998+03:00 fserver kernel: [ 2007.125484] nvme_log_error: 89 callbacks suppressed
2024-04-13T17:11:13.131011+03:00 fserver kernel: [ 2007.125490] nvme1n1: I/O Cmd(0x2) @ LBA 940966272, 8 blocks, I/O Error (sct 0x2 / sc 0x81) 
2024-04-13T17:11:13.131016+03:00 fserver kernel: [ 2007.125961] blk_print_req_error: 188 callbacks suppressed
2024-04-13T17:11:13.131018+03:00 fserver kernel: [ 2007.125964] critical medium error, dev nvme1n1, sector 940966272 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 2
2024-04-13T17:11:13.131027+03:00 fserver kernel: [ 2007.126490] I/O error, dev loop0, sector 3745777024 op 0x0:(READ) flags 0x0 phys_seg 4 prio class 2
2024-04-13T17:11:13.132396+03:00 fserver kernel: [ 2007.127188] bio error: 000000000b59f085,  err: 10
2024-04-13T17:11:13.181436+03:00 fserver kernel: [ 2007.175757] nvme1n1: I/O Cmd(0x2) @ LBA 940966272, 8 blocks, I/O Error (sct 0x2 / sc 0x81) 
2024-04-13T17:11:13.181452+03:00 fserver kernel: [ 2007.176293] critical medium error, dev nvme1n1, sector 940966272 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 2
2024-04-13T17:11:13.181463+03:00 fserver kernel: [ 2007.176934] I/O error, dev loop0, sector 3745777024 op 0x0:(READ) flags 0x0 phys_seg 4 prio class 2
2024-04-13T17:11:13.184350+03:00 fserver kernel: [ 2007.177547] bio error: 00000000da045632,  err: 10
2024-04-13T17:11:13.232375+03:00 fserver kernel: [ 2007.226026] nvme1n1: I/O Cmd(0x2) @ LBA 940966272, 8 blocks, I/O Error (sct 0x2 / sc 0x81) 
2024-04-13T17:11:13.232392+03:00 fserver kernel: [ 2007.226652] critical medium error, dev nvme1n1, sector 940966272 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 2
2024-04-13T17:11:13.232396+03:00 fserver kernel: [ 2007.227312] I/O error, dev loop0, sector 3745777024 op 0x0:(READ) flags 0x0 phys_seg 4 prio class 2
2024-04-13T17:11:13.236351+03:00 fserver kernel: [ 2007.228035] bio error: 0000000012d26e20,  err: 10
2024-04-13T17:11:13.282392+03:00 fserver kernel: [ 2007.276297] nvme1n1: I/O Cmd(0x2) @ LBA 940966272, 8 blocks, I/O Error (sct 0x2 / sc 0x81) 
2024-04-13T17:11:13.282409+03:00 fserver kernel: [ 2007.277023] critical medium error, dev nvme1n1, sector 940966272 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 2
2024-04-13T17:11:13.282417+03:00 fserver kernel: [ 2007.277884] I/O error, dev loop0, sector 3745777024 op 0x0:(READ) flags 0x0 phys_seg 4 prio class 2
2024-04-13T17:11:13.284344+03:00 fserver kernel: [ 2007.278704] bio error: 000000006c0123b3,  err: 10
2024-04-13T17:11:13.332820+03:00 fserver kernel: [ 2007.326568] nvme1n1: I/O Cmd(0x2) @ LBA 940966272, 8 blocks, I/O Error (sct 0x2 / sc 0x81) 
2024-04-13T17:11:13.332834+03:00 fserver kernel: [ 2007.327385] critical medium error, dev nvme1n1, sector 940966272 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 2
2024-04-13T17:11:13.332844+03:00 fserver kernel: [ 2007.328315] I/O error, dev loop0, sector 3745777024 op 0x0:(READ) flags 0x0 phys_seg 4 prio class 2
2024-04-13T17:11:13.336359+03:00 fserver kernel: [ 2007.329362] bio error: 00000000fb3a2c34,  err: 10
2024-04-13T17:11:13.384351+03:00 fserver kernel: [ 2007.378239] nvme1n1: I/O Cmd(0x2) @ LBA 940966272, 8 blocks, I/O Error (sct 0x2 / sc 0x81) 
2024-04-13T17:11:13.384367+03:00 fserver kernel: [ 2007.379192] bio error: 00000000d40cf897,  err: 10
2024-04-13T17:11:13.436349+03:00 fserver kernel: [ 2007.428509] nvme1n1: I/O Cmd(0x2) @ LBA 940966272, 8 blocks, I/O Error (sct 0x2 / sc 0x81) 
2024-04-13T17:11:13.436364+03:00 fserver kernel: [ 2007.429503] bio error: 0000000018df5589,  err: 10
2024-04-13T17:11:13.484349+03:00 fserver kernel: [ 2007.478781] nvme1n1: I/O Cmd(0x2) @ LBA 940966272, 8 blocks, I/O Error (sct 0x2 / sc 0x81) 
2024-04-13T17:11:13.484373+03:00 fserver kernel: [ 2007.479860] bio error: 00000000475dd87b,  err: 10
2024-04-13T17:11:13.534645+03:00 fserver kernel: [ 2007.529053] nvme1n1: I/O Cmd(0x2) @ LBA 940966272, 8 blocks, I/O Error (sct 0x2 / sc 0x81) 
2024-04-13T17:11:13.536350+03:00 fserver kernel: [ 2007.530159] bio error: 000000002acff031,  err: 10
2024-04-13T17:11:13.584943+03:00 fserver kernel: [ 2007.579323] nvme1n1: I/O Cmd(0x2) @ LBA 940966272, 8 blocks, I/O Error (sct 0x2 / sc 0x81) 


Ответ на: комментарий от INDIGO

badblocks

В стартовом посте не видно что ты его делал. И результаты какие?

RAID0 - оправдан, нужен объём и скорость. Пришлось пожертвовать надежностью.

RAID0 не добавляет объём. Скорость частично добавляет, частично наоборот портит, зависит от сценария использования. Добавляет если у тебя там большие файлы, которые надо читать по одному с максимальной линейной скоростью, портит если много файлов которые читаются как попало одновременно.

firkax ★★★★★
()
Ответ на: комментарий от firkax

На рейде лежит образ диска 3Тб, который подключен в targetcli для раздачи через ISCSI.

Как разместить такой файл и при необходимости скопировать его на другой диск, я не знаю.

INDIGO
() автор топика
Ответ на: комментарий от INDIGO

Образ 3тб - это не то, о чём надо думать, это только прослойка абстракции. На образе то лежат файлы внутри, вот про них речь, скорее всего совсем незачем было их класть на рейд0. Лучше диски по-отдельности прокинуть по iscsi безо всяких рейдов, а файлы поделить между ними вручную. Объём будет тот же, надёжность выше, скорость случайного доступа тоже скорее всего немного выше (если б это был не ссд - заметно выше). Замедлится линейное чтение больших файлов, да, вот я так и не понял это актуально для тебя или нет.

firkax ★★★★★
()
Ответ на: комментарий от firkax

Сбой заметил вчера. Логи смотрел вчера.

Сейчас запустил badblocks, сейчас работает, насчитал 800 сектаров.

INDIGO
() автор топика
Последнее исправление: INDIGO (всего исправлений: 1)
Ответ на: комментарий от firkax

Так фишка в том, что мне не надо несколько маленьких, мне нужен 1 большой.

Реально, 1 БОЛЬШОЙ.

Была задумка вместо рейда LVM мутить, но он как бы медленнее, но это не точно.

INDIGO
() автор топика
Ответ на: комментарий от INDIGO
  1. Отдай каждый диск отдельно и используй в винде dynamic disk. То что ты сделал raid0 это твоя ошибка

  2. Диски имеют свойство дохнуть. Тот кто сделал raid0 сам подписался на свои риски. Хочешь отказоустойчивость - будь добр обеспечить избыточность. Не можешь избыточность - не будет отказоустойчивости

Другой математики и физики пока не придумали

no-dashi-v2 ★★
()
Ответ на: комментарий от no-dashi-v2

да разницы по большому счету нет - хоть dynamic disk в винде, который не что иное как рейд, хоть рэйд под линуксом. итог тот же - умер диск, а с ним умерли и данные.

ну а кто собирает рэйд 0 из китайподвальных ссд - тот ССЗБ.

NiTr0 ★★★★★
()
Ответ на: комментарий от no-dashi-v2

Поставил новый диск. Через неделю получил Media and Data Integrity Errors и в kernel ошибки.

root@fserver:~# smartctl -a /dev/nvme2n1
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.0-20-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Netac NVMe SSD 1TB
Serial Number:                      AA202303061T12133256
Firmware Version:                   SN10380
PCI Vendor/Subsystem ID:            0x1f40
IEEE OUI Identifier:                0x000000
Total NVM Capacity:                 1,000,204,886,016 [1.00 TB]
Unallocated NVM Capacity:           0
Controller ID:                      0
NVMe Version:                       1.4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,000,204,886,016 [1.00 TB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            000000 1012133256
Local Time is:                      Sat Apr 20 23:17:07 2024 MSK
Firmware Updates (0x1a):            5 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x001f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat
Log Page Attributes (0x02):         Cmd_Eff_Lg
Maximum Data Transfer Size:         128 Pages
Warning  Comp. Temp. Threshold:     90 Celsius
Critical Comp. Temp. Threshold:     95 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     6.50W       -        -    0  0  0  0        0       0
 1 +     5.80W       -        -    1  1  1  1        0       0
 2 +     3.60W       -        -    2  2  2  2        0       0
 3 -   0.0500W       -        -    3  3  3  3     5000   10000
 4 -   0.0025W       -        -    4  4  4  4     8000   45000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        42 Celsius
Available Spare:                    100%
Available Spare Threshold:          1%
Percentage Used:                    0%
Data Units Read:                    2,845,002 [1.45 TB]
Data Units Written:                 1,561,393 [799 GB]
Host Read Commands:                 23,416,372
Host Write Commands:                2,073,974
Controller Busy Time:               153
Power Cycles:                       7
Power On Hours:                     94
Unsafe Shutdowns:                   3
Media and Data Integrity Errors:    69
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               42 Celsius
Temperature Sensor 2:               35 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged


Посыпались в kernel такие же ошибки…

Новый диск бракованный?

Запустил badblocks уже найдено 4000 не читабельных блоков.

Это что за ?????

INDIGO
() автор топика
Последнее исправление: INDIGO (всего исправлений: 1)
Ответ на: комментарий от no-dashi-v2

Диск в рейде0

Там ему не поплохеет?

Как я понимаю, fstrim работает автоматом:

root@fserver:~# journalctl -u fstrim
-- Boot 7d0bf062905e4b8384dfdffc4a29268e --
Apr 08 00:39:49 fserver systemd[1]: Starting fstrim.service - Discard unused blocks on filesystems from /etc/fstab...
Apr 08 00:40:57 fserver fstrim[342694]: /storage3: 822.7 GiB (883387113472 bytes) trimmed on /dev/sdb1
Apr 08 00:40:57 fserver fstrim[342694]: /storage1: 554.4 GiB (595288461312 bytes) trimmed on /dev/md0
Apr 08 00:40:57 fserver fstrim[342694]: /boot/efi: 505.1 MiB (529686528 bytes) trimmed on /dev/sda1
Apr 08 00:40:57 fserver fstrim[342694]: /: 69.9 GiB (75067318272 bytes) trimmed on /dev/sda2
Apr 08 00:40:57 fserver systemd[1]: fstrim.service: Deactivated successfully.
Apr 08 00:40:57 fserver systemd[1]: Finished fstrim.service - Discard unused blocks on filesystems from /etc/fstab.
-- Boot b28f866fcfaa422880af853c0991adb6 --
Apr 15 00:50:08 fserver systemd[1]: Starting fstrim.service - Discard unused blocks on filesystems from /etc/fstab...
Apr 15 00:51:19 fserver fstrim[142357]: /storage3: 794.9 GiB (853522149376 bytes) trimmed on /dev/sdb1
Apr 15 00:51:19 fserver fstrim[142357]: /storage1: 554.4 GiB (595288461312 bytes) trimmed on /dev/md0
Apr 15 00:51:19 fserver fstrim[142357]: /boot/efi: 505.1 MiB (529686528 bytes) trimmed on /dev/sda1
Apr 15 00:51:19 fserver fstrim[142357]: /: 68.4 GiB (73406091264 bytes) trimmed on /dev/sda2
Apr 15 00:51:19 fserver systemd[1]: fstrim.service: Deactivated successfully.
Apr 15 00:51:19 fserver systemd[1]: Finished fstrim.service - Discard unused blocks on filesystems from /etc/fstab.
Apr 15 00:51:19 fserver systemd[1]: fstrim.service: Consumed 1.133s CPU time.
INDIGO
() автор топика
Последнее исправление: INDIGO (всего исправлений: 1)
Ответ на: комментарий от firkax

К большому сожалению, что руководство купило, то и ставлю…..

В рейде стоит 4 диска, 3 из которых (в том числе и новый) при тесте badblocks показываю битые сектора.

Партия такая? Отработали почти год не выключаясь 24 на 7

INDIGO
() автор топика
Последнее исправление: INDIGO (всего исправлений: 2)
Ответ на: комментарий от INDIGO

Скажи руководству что такая экономия в итоге обернётся расходами большими чем цена нормального ссд. Если не самсунг, то хоть какой-то бренд который может дорожить репутацией.

Думаю дело не в партии а в производителе. Они хоть не на алиэкспрессе их покупали?

firkax ★★★★★
()
Ответ на: комментарий от firkax

А не может быть это связано софтовый глюк?

Хотя, как я понимаю, если в логах типа такого:

critical medium error, dev nvme1n1, sector 940966272 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 2

То это говорит, что ошибка стороне «железа» диска.

INDIGO
() автор топика
Ответ на: комментарий от INDIGO

Ну воткните для теста диск в другой комп. Убереёте вариант глюков железа материнки и плохого блока питания. Ещё можете его пальцем потрогать, может он в хроническом перегреве, а эти 42 градуса из самрта не настоящие.

mky ★★★★★
()
Ответ на: комментарий от mky

Тесты прогонял по 2 раза. Одни те же блоки не читались, что может говорить о неисправности именно дисков.

Вариант - другой комп, радо попробовать.

INDIGO
() автор топика