LINUX.ORG.RU

Сообщения ginky

 

mdadm Проблемы после обновления на Ubuntu LTS 24.04.1

Есть два массива, raid6 и raid1. На одном данные, на другом корень с системой.

В systemd есть дефолтный сервис mdmonitor-oneshot.service который вызывает такую команду mdadm –monitor –oneshot –scan. При каждом срабатывании mdadm выкидывает такую портянку

mdadm: DeviceDisappeared event detected on md device /dev/md/md1
mdadm: DeviceDisappeared event detected on md device /dev/md/md0
mdadm: NewArray event detected on md device /dev/md0
mdadm: NewArray event detected on md device /dev/md1

Появилось это после апгрейда. До этого никогда таких ошибок не наблюдал. UUID не менялись. Все массивы поднимаются штатно при загрузке системы. Ошибок на дисках нет, файловые системы в порядке.

Что это может быть?

 

ginky
()

Отваливаются USB порты под нагрузкой

Решил скопировать файлы на внешний жесткий диск. Подключил его через 1 из 2 доступных usb 3.0 портов на передней панели ПК. Пока диск просто подключен то он может работать сколь угодно долго. Как только начинаю копировать файлы втечении 30 мин падает xhci_hcd. Диск естественно отваливается с io error. Порты на передней панели с этого момента перестают работать. При этом задние порты работают как обычно. Помогает только перезагрузка

С IOMMU проблем нет, в uefi включен, ядром определяется правильно

Hardware specs

HDD: USB HDD Transcend из 2013, но с идеальным smart. Проходит extended self-test без ошибок. Контроллер ASM1051
Motherboard: MSI MPG B650I EDGE WIFI
AMD CPU

HDD smart

Model Family:     Seagate Samsung SpinPoint M8 (AF)
Device Model:     ST1000LM024 HN-M101MBB
Serial Number:    S318J9GF219521
LU WWN Device Id: 5 0004cf 20c9862f5
Firmware Version: 2BA30001
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Form Factor:      2.5 inches
Device is:        In smartctl database 7.3/5528
ATA Version is:   ATA8-ACS T13/1699-D revision 6
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Thu Aug  8 10:43:08 2024
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   051    Pre-fail  Always       -       4
  2 Throughput_Performance  0x0026   056   056   000    Old_age   Always       -       11589
  3 Spin_Up_Time            0x0023   090   083   025    Pre-fail  Always       -       3208
  4 Start_Stop_Count        0x0032   088   088   000    Old_age   Always       -       12721
  5 Reallocated_Sector_Ct   0x0033   252   252   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   252   252   051    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0024   252   252   015    Old_age   Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       5091
 10 Spin_Retry_Count        0x0032   252   252   051    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       7
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       613
191 G-Sense_Error_Rate      0x0022   100   100   000    Old_age   Always       -       2
192 Power-Off_Retract_Count 0x0022   252   252   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0002   064   053   000    Old_age   Always       -       32 (Min/Max 20/47)
195 Hardware_ECC_Recovered  0x003a   100   100   000    Old_age   Always       -       0
196 Reallocated_Event_Count 0x0032   252   252   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   252   252   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   252   252   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0036   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x002a   100   100   000    Old_age   Always       -       1095
223 Load_Retry_Count        0x0032   100   100   000    Old_age   Always       -       7
225 Load_Cycle_Count        0x0032   088   088   000    Old_age   Always       -       130996


lsb_release -a

Distributor ID:	Ubuntu
Description:	Ubuntu 24.04 LTS
Release:	24.04
Codename:	noble

uname -a

Linux 6.8.0-39-generic #39-Ubuntu SMP PREEMPT_DYNAMIC Fri Jul  5 21:49:14 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux

lsusb

Bus 001 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
Bus 001 Device 002: ID 1462:7d73 Micro Star International MYSTIC LIGHT 
Bus 001 Device 003: ID 0db0:36e7 Micro Star International USB Audio
Bus 001 Device 004: ID 0e8d:0616 MediaTek Inc. Wireless_Device
Bus 002 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub
Bus 002 Device 002: ID 174c:5106 ASMedia Technology Inc. ASM1051 SATA 3Gb/s bridge
Bus 003 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
Bus 003 Device 002: ID 046d:0826 Logitech, Inc. HD Webcam C525
Bus 004 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub
Bus 005 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
Bus 005 Device 002: ID 05e3:0610 Genesys Logic, Inc. Hub
Bus 005 Device 003: ID 2dc8:5200 8BitDo 8BitDo Retro Keyboard
Bus 005 Device 004: ID 046d:c085 Logitech, Inc. G Pro Gaming Mouse
Bus 006 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub
Bus 006 Device 002: ID 05e3:0626 Genesys Logic, Inc. Hub
Bus 007 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
Bus 008 Device 001: ID 1d6b:0003 Linux Foundation 3.0 root hub

dmesg

[14692.691038] xhci_hcd 0000:0d:00.0: WARN Event TRB for slot 5 ep 0 with no TDs queued?
[14692.691083] usb 2-3: Device not responding to setup address.
[14693.423769] xhci_hcd 0000:0d:00.0: ERROR unknown event type 4
[14698.145873] xhci_hcd 0000:0d:00.0: ERROR mismatched command completion event
[14700.193965] xhci_hcd 0000:0d:00.0: Timeout while waiting for setup device command
[14700.401869] usb 2-3: device not accepting address 3, error -62
[14705.826001] xhci_hcd 0000:0d:00.0: xHCI host not responding to stop endpoint command
[14705.826080] xhci_hcd 0000:0d:00.0: xHCI host controller not responding, assume dead
[14705.826093] xhci_hcd 0000:0d:00.0: HC died; cleaning up
[14705.826104] usb 1-6: USB disconnect, device number 2
[14705.826171] xhci_hcd 0000:0d:00.0: Timeout while waiting for stop endpoint command
[14705.826188] usb 2-3: USB disconnect, device number 0
[14705.838941] EXT4-fs warning (device dm-2): ext4_end_bio:343: I/O error 10 writing to inode 11803482 starting block 28046080)
[14705.838973] EXT4-fs warning (device dm-2): ext4_end_bio:343: I/O error 10 writing to inode 11803482 starting block 28048128)
[14705.839003] EXT4-fs warning (device dm-2): ext4_end_bio:343: I/O error 10 writing to inode 11803482 starting block 28050176)
[14705.839033] EXT4-fs warning (device dm-2): ext4_end_bio:343: I/O error 10 writing to inode 11803482 starting block 28052224)
[14705.839095] EXT4-fs warning (device dm-2): ext4_end_bio:343: I/O error 10 writing to inode 11803482 starting block 28053504)
[14705.839131] EXT4-fs warning (device dm-2): ext4_end_bio:343: I/O error 10 writing to inode 11803482 starting block 28053781)
[14705.839198] EXT4-fs warning (device dm-2): ext4_end_bio:343: I/O error 10 writing to inode 11803482 starting block 28054042)
[14705.839226] EXT4-fs warning (device dm-2): ext4_end_bio:343: I/O error 10 writing to inode 11803482 starting block 28054304)
[14705.839235] EXT4-fs warning (device dm-2): ext4_end_bio:343: I/O error 17 writing to inode 11803482 starting block 28045056)
[14705.839240] Buffer I/O error on dev dm-2, logical block 17596412, lost async page write
[14705.839274] EXT4-fs warning (device dm-2): ext4_end_bio:343: I/O error 10 writing to inode 11803482 starting block 28054311)
[14705.842677] Buffer I/O error on dev dm-2, logical block 121674081, lost sync page write
[14705.842710] Aborting journal on device dm-2-8.
[14705.842729] EXT4-fs (dm-2): Delayed block allocation failed for inode 11803482 at logical offset 372480 with max blocks 2048 with error 30
[14705.842732] EXT4-fs (dm-2): This should not happen!! Data will be lost
[14705.842734] EXT4-fs error (device dm-2) in ext4_do_writepages:2692: Journal has aborted
[14705.843898] Buffer I/O error on dev dm-2, logical block 121667584, lost sync page write
[14705.843905] JBD2: I/O error when updating journal superblock for dm-2-8.
[14705.843938] Buffer I/O error on dev dm-2, logical block 0, lost sync page write
[14705.843943] EXT4-fs (dm-2): I/O error while writing superblock
[14705.843946] EXT4-fs (dm-2): Remounting filesystem read-only
[14705.874431] usb 1-10: uac_clock_source_is_valid(): cannot get clock validity for id 5
[14705.874436] usb 1-10: clock source 5 is not valid, cannot use
[14705.874440] usb 1-10: 4:3: cannot get freq (v2/v3): err -19
[14705.874443] usb 1-10: 4:3: cannot set freq 48000 (v2/v3): err -19
[14705.884900] sd 6:0:0:0: [sda] Synchronizing SCSI cache
[14705.885148] sd 6:0:0:0: [sda] Synchronize Cache(10) failed: Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[14705.885460] usb 1-10: USB disconnect, device number 3
[14705.898676] Buffer I/O error on device dm-2, logical block 28045312
[14705.898682] Buffer I/O error on device dm-2, logical block 28045313
[14705.898684] Buffer I/O error on device dm-2, logical block 28045314
[14705.898686] Buffer I/O error on device dm-2, logical block 28045315
[14705.898688] Buffer I/O error on device dm-2, logical block 28045316
[14705.898689] Buffer I/O error on device dm-2, logical block 28045317
[14705.898691] Buffer I/O error on device dm-2, logical block 28045318
[14705.898693] Buffer I/O error on device dm-2, logical block 28045319
[14705.898694] Buffer I/O error on device dm-2, logical block 28045320
[14705.898696] Buffer I/O error on device dm-2, logical block 28045321
[14705.923148] usb 1-12: USB disconnect, device number 4

 , , ,

ginky
()

Скорость i/o падает в ноль во время проверки RAID6

От безысходности пишу сюда. Не знаю в чем проблема.

Стоит домашний сервер, 4 hdd диска в raid6 через mdadm. Все настройки кешей, флаги дефолтные.

Раз в месяц запускается scrubbing и где-то на половине прогресса i/o падает в ноль. Но сервер продолжает работать если программа осталась в озу. Т.е можно зайти по ssh, что-то делать пока это не связано с обращением к массиву.

Помогает только hard reset. Логи чистые как слеза младенца. Ошибок нет вообще. Стоит также smartctl, все чисто. Диски каждый день проходят быструю проверку.

Диски охлаждаются хорошо, стоят в корзине для дисков с обдувом, под нагрузкой темпа не выше 48 градусов (без ~40).

Находил похожие проблемы в гугле, но написано что это был баг и якобы он давно исправлен.

Перемещено hobbit из general

 ,

ginky
()

RSS подписка на новые темы