LINUX.ORG.RU
ФорумAdmin

Диск вылетает из raid 1 при переподключение провода

 , ,


1

1

Всем привет!

Диск вылетает из raid 1 при физическом переподключении провода sata.

При простой перезагрузки компьютера, все диски остаются в raid и все ОК!

В чем может быть проблема?


можно предположить, что рейд собирается не автоматом, а принудительно по абсолютным именам дисков, типа sda/sdb/sdc/...

futurama ★★★★★
()

так понимаю raid должен видеть два диска в не зависимости от того вытаскивали диск из системника или нет

fraer
() автор топика

Вопросов больше чем ответов. Какой рэйд hard/fake/soft ? Переподключаем на холодную/горячую ?

anc ★★★★★
()
Ответ на: комментарий от anonymous

/etc/fstab

UUID=77bbace2-c6bf-406b-bacb-587539640a13 / ext4 errors=remount-ro 0 1
UUID=5b997589-a169-43ad-8a7b-66869d9b2bc8 /boot ext3 defaults 0 2
UUID=6920faa7-9fc7-4b1d-b0ba-2a067c0d7deb /home ext4 defaults 0 2

/etc/mdadm/mdadm.conf
ARRAY /dev/md/0 UUID=850e7f64:433c27f1:c6811d24:3772330e
ARRAY /dev/md/1 UUID=0629b3c3:e0413a69:5a80eecd:3c0afb05
ARRAY /dev/md/2 UUID=1e66dc08:76599de0:4cb0a0cd:4f8d79e9

lsblk -o NAME,SIZE,FSTYPE,TYPE,MOUNTPOINT
NAME SIZE FSTYPE TYPE MOUNTPOINT
sda 119,2G disk
├─sda1 37,3G linux_raid_member part
├─sda2 488M linux_raid_member part
└─sda3 81,5G linux_raid_member part
sdb 119,2G disk
├─sdb1 37,3G linux_raid_member part
│ └─md0 37,2G ext4 raid1 /
├─sdb2 488M linux_raid_member part
│ └─md1 487,7M ext3 raid1 /boot
└─sdb3 81,5G linux_raid_member part
└─md2 81,5G ext4 raid1 /home

fraer
() автор топика
Ответ на: комментарий от fraer

Але. Если

Hardware raid 1

Ну и какой смысл в вашем выхлопе?

Или все-таки не hard? Вы уж пожалуйста опишите конфигурацию. Сколько хардов, как собраны. И что бы два раза не вставать выхлоп cat /proc/mdstat покажите

anc ★★★★★
()
Ответ на: комментарий от anc

cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6][raid5] [raid4] [raid10]
md2 : active raid1 sdb3[3]
85406720 blocks super 1.2 [2/1] [_U]

md1 : active raid1 sda2[3]
499392 blocks super 1.2 [2/1] [_U]

md0 : active raid1 sda1[1]
39028736 blocks super 1.2 [2/1] [_U]

unused devices: <none>

fraer
() автор топика
Ответ на: комментарий от anc

два одинаковых диска по 128GB SSD (ADATA SU800)

fraer
() автор топика
Ответ на: комментарий от fraer

«два одинаковых диска по 128GB SSD (ADATA SU800)»
Ну и где тут хард рэйд?

Учитывая ваш выхлоп, а он очень странный, смотрите логи. И у вас не вылетает один диск, у вас вылетают разделы с разных дисков. Вполне возможно проблема в самих хардах.
Итого: Что вы делали мы не знаем. Сначала посмотреть на смарт самих хардов. Потом есть все ок, я бы забэкапил систему при учете что это всего 128GB, создал заново рэйд, и вернул из бэкапа.

anc ★★★★★
()
Ответ на: комментарий от anc

вот вывод parted: parted -l
Model: ATA ADATA SU800 (scsi)
Disk /dev/sda: 128GB
Sector size (logical/physical): 512B/512B
Partition Table: msdos
Disk Flags:

Number Start End Size Type File system Flags
1 1049kB 40,0GB 40,0GB primary raid
2 40,0GB 40,5GB 512MB primary boot, raid
3 40,5GB 128GB 87,5GB primary raid

Model: ATA ADATA SU800 (scsi)
Disk /dev/sdb: 128GB
Sector size (logical/physical): 512B/512B
Partition Table: msdos
Disk Flags:

Number Start End Size Type File system Flags
1 1049kB 40,0GB 40,0GB primary ext4 raid
2 40,0GB 40,5GB 512MB primary boot, raid
3 40,5GB 128GB 87,5GB primary raid

Model: Linux Software RAID Array (md)
Disk /dev/md2: 87,5GB
Sector size (logical/physical): 512B/512B
Partition Table: loop
Disk Flags:

Number Start End Size File system Flags
1 0,00B 87,5GB 87,5GB ext4

Model: Linux Software RAID Array (md)
Disk /dev/md0: 40,0GB
Sector size (logical/physical): 512B/512B
Partition Table: loop
Disk Flags:

Number Start End Size File system Flags
1 0,00B 40,0GB 40,0GB ext4

Model: Linux Software RAID Array (md)
Disk /dev/md1: 511MB
Sector size (logical/physical): 512B/512B
Partition Table: loop
Disk Flags:

Number Start End Size File system Flags
1 0,00B 511MB 511MB ext3

fraer
() автор топика

заново установил систему, после физически отключения диска от сети диск пропадает из RAID

fraer
() автор топика
Ответ на: комментарий от fraer

заново установил систему

Это заново пересоздали raid или на старый установили? Еще раз покажите выхлоп cat /proc/mdstat при работающем и не работающем


Вы это сделали?

Сначала посмотреть на смарт самих хардов.

anc ★★★★★
()
Ответ на: комментарий от anc

снес систему и заново установил с диска:
debian stretch 9.5.0 amd64

до переподключения на холодную:
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 sdb1[3] sda1[2]
39028736 blocks super 1.2 [2/2] [UU]

md2 : active raid1 sdb3[3] sda3[2]
85406720 blocks super 1.2 [2/2] [UU]

md1 : active raid1 sdb2[3] sda2[2]
499392 blocks super 1.2 [2/2] [UU]

unused devices: <none>

после переподключения на холодную: Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md2 : active raid1 sdb3[3]
85406720 blocks super 1.2 [2/1] [_U]

md0 : active raid1 sdb1[3]
39028736 blocks super 1.2 [2/1] [_U]

md1 : active raid1 sdb2[3]
499392 blocks super 1.2 [2/1] [_U]

unused devices: <none>

fraer
() автор топика
Ответ на: комментарий от anc

диски абсолютно новые, в логах и smartctl ничего настораживающего не вижу:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-7-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke,
http://www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model: ADATA SU800
Serial Number: 2I3920040806
LU WWN Device Id: 5 707c18 1006e6c02
Firmware Version: R0427ANR
User Capacity: 128 035 676 160 bytes [128 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA >3.2 (0x1ff), 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Thu Dec 27 18:24:16 2018 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x80) Offline data collection activity
was never started.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline data collection: ( 0) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline
immediate.
Auto Offline data
collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0002) Does not save SMART data before entering power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported. General Purpose Logging supported.
Short self-test routine recommended polling time: ( 2) minutes.
Extended self-test routine recommended polling time: ( 30) minutes.
Conveyance self-test routine recommended polling time: ( 2) minutes.
SCT capabilities: (0x0035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x0000 100 100 000 Old_age Offline - 0
5 Reallocated_Sector_Ct 0x0000 100 100 000 Old_age Offline - 0
9 Power_On_Hours 0x0000 100 100 000 Old_age Offline - 67
12 Power_Cycle_Count 0x0000 100 100 000 Old_age Offline - 89
148 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 129
149 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 14
150 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 5
151 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 8
159 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 0
160 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 0
161 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 36
163 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 21
164 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 8392
165 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 24
166 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 13
167 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 18
168 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 1500
169 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 99
177 Wear_Leveling_Count 0x0000 100 100 050 Old_age Offline - 0
181 Program_Fail_Cnt_Total 0x0000 100 100 000 Old_age Offline - 0
182 Erase_Fail_Count_Total 0x0000 100 100 000 Old_age Offline - 0
192 Power-Off_Retract_Count 0x0000 100 100 000 Old_age Offline - 7
194 Temperature_Celsius 0x0000 100 100 000 Old_age Offline - 29
195 Hardware_ECC_Recovered 0x0000 100 100 000 Old_age Offline - 0
196 Reallocated_Event_Count 0x0000 100 100 016 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0000 100 100 050 Old_age Offline - 0
232 Available_Reservd_Space 0x0000 100 100 000 Old_age Offline - 100
241 Total_LBAs_Written 0x0000 100 100 000 Old_age Offline - 39089
242 Total_LBAs_Read 0x0000 100 100 000 Old_age Offline - 91121
245 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 75528

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Completed [00% left] (0-65535)
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

fraer
() автор топика
Ответ на: комментарий от fraer

1. Я бы запустил
smartctl -t long /dev/sda
smartctl -t long /dev/sdb

2. Ситуация действительно странная в первом выхлопе /proc/mdstat у вас вылетали как разделы с sda так и c sdb
md2 : active raid1 sdb3[3] - нет sda

md1 : active raid1 sda2[3]
и
md0 : active raid1 sda1[1] - нет sdb

3. Еще один момент забыл упомянуть, а какой смысл в raid1 на ssd ?

anc ★★★★★
()
10 апреля 2020 г.
Ответ на: комментарий от anc

отказоустойчивость как бы, если диски работают по 50000 часов то понятное дело какой нить да выйдет из строя

fraer
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.