LINUX.ORG.RU

softraid + lvm, странные подвисания


0

0

Имеется конфигурация:

00:1f.2 IDE interface [0101]: Intel Corporation 82801GB/GR/GH (ICH7 Family) SATA IDE Controller [8086:27c0] (rev 01)

К нему подключены 2 Seagate 500gb (ST3500320AS). Диски объединены в softraid (mirror). Поверх raid - LVM, внутри него

3 файлухи (reiserfs) под /, /home и /usr/portage

Несколько раз в час замечаются странные подвисания - большая часть приложений висит (например опера, mplayer), но некоторые работают (можно переключать рабочие столы, в уже запущенном konsole удаётся пускать консольные проги, например, iostat). Подвисает всё на несколько секунд - 5-10 максимум.

Когда успеваю глянуть в iostat, там видна вялая активность (запись со скоростью порядка 2-3 мегабайт/с) на диски sda3/sdb3 (они как раз объединены в вышеописанный softraid). Активности на dm-2 (который представляет собой виртуальный raid-девайс) - никакой.

Что это? Синхронизация массива или что? В /proc/mdstat ничего подозрительного. В dmesg тоже ничего нету.

★★★★★

А почему вы решили, что проблема связана с зеркалом? У вас на файловых системах места достаточно? Какого-нибудь автоматического изменения размера не происходит?

mky ★★★★★
()
Ответ на: комментарий от mky

> А почему вы решили, что проблема связана с зеркалом?

Потому что в момент тормозов, согласно iostat, запись идёт на sda/sdb, без dm-2 (который расположен на sda/sdb). Причём я никакой записи на диск не заказывал. Т.е., например, просто браузю (дисковый кэш в опере отключен) или смотрю фильм (т.е. только чтение с диска).

> У вас на файловых системах места достаточно?

На данный момент места хватает, но подозреваю, что файловая система сильно фрагментирована.

> Какого-нибудь автоматического изменения размера не происходит?

Нет. Файловая система везде - reiserfs, так что онлайн-дефрагментации там тож не должно быть. Балансировка дерева у него, на сколько помню, происходит при записи.

AngryElf ★★★★★
() автор топика
Ответ на: комментарий от mv

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   105   099   006    Pre-fail  Always       -       8143857
  3 Spin_Up_Time            0x0003   096   094   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       81
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x000f   080   060   030    Pre-fail  Always       -       8813280822
  9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       5755
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       2
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       80
184 Unknown_Attribute       0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   098   000    Old_age   Always       -       5
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   059   045    Old_age   Always       -       32 (Lifetime Min/Max 27/33)
194 Temperature_Celsius     0x0022   032   041   000    Old_age   Always       -       32 (0 16 0 0)
195 Hardware_ECC_Recovered  0x001a   047   025   000    Old_age   Always       -       8143857
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.



Есть pre-fail значения, но я не очень доверяю этому тесту. Оно мне и на новых винтах вечно pre-fail выдаёт. Этим винтам месяца 3-4 отсилы, работают они 24*7 (т.е. не выключаются, поэтому про Spin_Up_Time и Start_Stop_Count - явное вранье) под минимальной нагрузкой (домашний медиацентр + торрент-клиент). 

AngryElf ★★★★★
() автор топика
Ответ на: комментарий от AngryElf

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   116   100   006    Pre-fail  Always       -       109575940
  3 Spin_Up_Time            0x0003   096   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       7
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       6
  7 Seek_Error_Rate         0x000f   063   060   030    Pre-fail  Always       -       1943039
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       588
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       7
183 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       0
184 Unknown_Attribute       0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   075   063   045    Old_age   Always       -       25 (Lifetime Min/Max 20/37)
194 Temperature_Celsius     0x0022   025   040   000    Old_age   Always       -       25 (0 20 0 0)
195 Hardware_ECC_Recovered  0x001a   029   029   000    Old_age   Always       -       109575940
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       60060822667871
241 Unknown_Attribute       0x0000   100   253   000    Old_age   Offline      -       2207388743
242 Unknown_Attribute       0x0000   100   253   000    Old_age   Offline      -       39514458


для сравнения, эта инфа с винта, которому и двух недель нету. Тоже prefail... Или я не так расшифровываю данные?

AngryElf ★★★★★
() автор топика
Ответ на: комментарий от AngryElf

> Тоже prefail...

Это же TYPE... Честно говоря, я сам толком не понимаю, что это всё значит, но имхо слово Pre-fail в графе TYPE не признак проблем.

const86 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.