LINUX.ORG.RU
ФорумAdmin

mdadm не синхронизирует раздел

 


0

1

Доброго времени суток. Есть массив на mdadm, состоит из двух разделов (sdc3 и sdd3), в один момент массив деградировал (выпал sdd3), пытался добавить его обратно командой:

mdadm /dev/md9 -a /dev/sdd3
Начинается синхронизация, но она стоит на 0.0%, т.е. доходит до определенного блока и заново по кругу. Просканировал весь жесткий диск с помощью Victoria - диск в идеале. Форматировал раздел командой:
mkfs.ext3 /dev/sdd3
После этого снова попытался вернуть раздел в массив, но все по прежнему, синхронизация стоит на отметке 0.0% Куда копать?



Последнее исправление: IceTony (всего исправлений: 1)

Я что-то не очень понял.... mdadm не работает на уровне файловой системы. Зачем форматировать раздел в ext3?

DALDON ★★★★★
()

она стоит на 0.0%

cat /proc/mdstat && sleep 120 && cat /proc/mdstat

заново по кругу

mdadm отчитывается об окончании/начале синхронизации в логи. Что там?

Pinkbyte ★★★★★
()
Последнее исправление: Pinkbyte (всего исправлений: 1)
Ответ на: комментарий от DALDON

я подумал может там файлы битые и просто форматнул раздел, что бы его чистым запихнуть в массив

IceTony
() автор топика
Ответ на: комментарий от Pinkbyte

После запуска синхронизации:

/dev/md9:
        Version : 00.90.03
  Creation Time : Mon Nov 21 15:05:33 2011
     Raid Level : raid1
     Array Size : 604646336 (576.64 GiB 619.16 GB)
  Used Dev Size : 604646336 (576.64 GiB 619.16 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 9
    Persistence : Superblock is persistent

    Update Time : Mon Feb 12 14:18:06 2018
          State : clean, degraded, recovering
 Active Devices : 1
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 1

 Rebuild Status : 0% complete

           UUID : 39199842:68b88709:a3504971:ce774fb5
         Events : 0.195532

    Number   Major   Minor   RaidDevice State
       0       8       35        0      active sync   /dev/sdc3
       2       8       51        1      spare rebuilding   /dev/sdd3

IceTony
() автор топика
Ответ на: комментарий от IceTony

Это не выхлоп команды cat /proc/mdstat, это выхлоп mdadm -E(или -D). Я просил не это.

Ну и заодно чтоб 2 раза не вставать: smartctl -a /dev/sdd

Pinkbyte ★★★★★
()
Последнее исправление: Pinkbyte (всего исправлений: 1)
Ответ на: комментарий от Pinkbyte
[root@ALTServer var]# cat /proc/mdstat && sleep 120 && cat /proc/mdstat
Personalities : [raid1]
md4 : active raid1 sda1[0] sdb1[1]
      20482752 blocks [2/2] [UU]

md8 : active raid1 sda2[0] sdb2[1]
      604646336 blocks [2/2] [UU]

md6 : active raid1 sdd1[1] sdc1[0]
      6144704 blocks [2/2] [UU]

md10 : active(auto-read-only) raid1 sdd2[1] sdc2[0]
      14337920 blocks [2/2] [UU]

md9 : active raid1 sdd3[2] sdc3[0]
      604646336 blocks [2/1] [U_]
      [>....................]  recovery =  0.0% (46720/604646336) finish=11196.2min speed=898K/sec

unused devices: <none>
Personalities : [raid1]
md4 : active raid1 sda1[0] sdb1[1]
      20482752 blocks [2/2] [UU]

md8 : active raid1 sda2[0] sdb2[1]
      604646336 blocks [2/2] [UU]

md6 : active raid1 sdd1[1] sdc1[0]
      6144704 blocks [2/2] [UU]

md10 : active(auto-read-only) raid1 sdd2[1] sdc2[0]
      14337920 blocks [2/2] [UU]

md9 : active raid1 sdd3[2] sdc3[0]
      604646336 blocks [2/1] [U_]
      [>....................]  recovery =  0.0% (48640/604646336) finish=16552.9min speed=608K/sec

unused devices: <none>
IceTony
() автор топика
Ответ на: комментарий от IceTony

Меня не GOOD/BAD интересует, мне значения показателей smart нужны. Поставь smartmontools и выполни ту команду снова. На всякий случай и на /dev/sdc тоже.

Далее:

speed=608K/sec

Либо у тебя большая загрузка на рейде по I/O(восстановление идет в фоновом режиме и не занимает I/O сверх меры), либо ты сам зарезал скорость восстановления. Либо какой-то из дисков подыхает.

Что показывают команды:

cat /proc/sys/dev/raid/speed_limit_min
cat /proc/sys/dev/raid/speed_limit_max

Pinkbyte ★★★★★
()
Последнее исправление: Pinkbyte (всего исправлений: 2)
Ответ на: комментарий от Pinkbyte

sdc:

smartctl version 5.38 [x86_64-alt-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD6400AAKS-00A7B2
Serial Number:    WD-WCASY6021310
Firmware Version: 01.03B01
User Capacity:    640,135,028,736 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Mon Feb 12 16:08:55 2018 GMT-4
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (10800) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 127) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x303f) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   202   160   021    Pre-fail  Always       -       2866
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       235
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   005   005   000    Old_age   Always       -       69837
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       233
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       210
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       235
194 Temperature_Celsius     0x0022   103   085   000    Old_age   Always       -       44
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   188   187   000    Old_age   Always       -       1333
198 Offline_Uncorrectable   0x0030   189   189   000    Old_age   Offline      -       1187
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   001   001   000    Old_age   Offline      -       571919

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
IceTony
() автор топика
Ответ на: комментарий от Pinkbyte
smartctl version 5.38 [x86_64-alt-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD6400AAKS-22A7B2
Serial Number:    WD-WCASY5926886
Firmware Version: 01.03B01
User Capacity:    640,135,028,736 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Mon Feb 12 16:06:52 2018 GMT-4
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (11160) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 131) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x303f) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   158   157   021    Pre-fail  Always       -       5058
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       184
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   001   001   000    Old_age   Always       -       72585
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       183
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       160
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       184
194 Temperature_Celsius     0x0022   105   088   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
IceTony
() автор топика
Ответ на: комментарий от IceTony

sdc:

197 Current_Pending_Sector  0x0032   188   187   000    Old_age   Always       -       1333
198 Offline_Uncorrectable   0x0030   189   189   000    Old_age   Offline      -       1187

Диск потихоньку накрывается

sdd: Current pending, offline incorrectable и reallocated - на нуле, всё окей.

Скорость: 1000

Подымай до скольки не жалко. Но учти - возможны тормоза основных процессов, жрущих I/O. Хотя учитывая то, что у тебя там сейчас даже 1000 нет - думаю не поможет, как бы sdc в процессе recovery окончательно не накрылся...

Pinkbyte ★★★★★
()

Форматировал раздел командой: mkfs.ext3 /dev/sdd3

Надо скопировать разметку (со всем содержимым) с исправного диска:

sudo dd if=/dev/sdc3 of=/dev/sdd3 bs=1M
После чего перезагружаемся и добавляем раздел в массив командой:
sudo mdadm /dev/md9 --add /dev/sdd3

Bootmen ☆☆☆
()
Ответ на: комментарий от Bootmen

Следующая команда лучше всего подходит для просмотра статуса синхронизации устройства:

watch -n1 cat /proc/mdstat
Нажмите Ctrl-c для окончания просмотра

Bootmen ☆☆☆
()
Ответ на: комментарий от IceTony

Все очень плохо. На sdc есть дохрена нечитаемых блоков. Это могут быть софт бэды или настоящие бэды, в любимом случае данные из них достать не просто. Лучше всего заменить sdc а данные на опустевший рейд восстановить из бекапа. Но если бекапа нет, то придётся спасать что получится при помощи ddrescue.

legolegs ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.