LINUX.ORG.RU
ФорумAdmin

md3_raid1 io 99%


0

1

Добрый вечер. Сегодня посмотрел iotop и обнаружил, что md3_raid1 часто трескает 99% io. http://poiuty.ru/img/afddc02951159fc0e1cef5c70666.png

На серваке несколько сайтов. IO они вообще не должны юзать. http://poiuty.ru/img/435e4b03058332ed906899df0e3c.png

Куда копать?

И смарты

# smartctl -A /dev/sda
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-2.6.32-279.14.1.el6.x86_64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   108   099   006    Pre-fail  Always       -       19081238
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       7
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   083   060   030    Pre-fail  Always       -       219781224
  9 Power_On_Hours          0x0032   089   089   000    Old_age   Always       -       9941
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       7
183 Runtime_Bad_Block       0x0032   098   098   000    Old_age   Always       -       2
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   052   052   000    Old_age   Always       -       48
190 Airflow_Temperature_Cel 0x0022   053   046   045    Old_age   Always       -       47 (Min/Max 45/54)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       5
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       7
194 Temperature_Celsius     0x0022   047   054   000    Old_age   Always       -       47 (0 20 0 0 0)
195 Hardware_ECC_Recovered  0x001a   012   010   000    Old_age   Always       -       19081238
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       234208861628117
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2163565268
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       2028324408
# smartctl -A /dev/sdb
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-2.6.32-279.14.1.el6.x86_64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   119   099   006    Pre-fail  Always       -       201477547
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       7
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   083   060   030    Pre-fail  Always       -       222571181
  9 Power_On_Hours          0x0032   089   089   000    Old_age   Always       -       9941
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       7
183 Runtime_Bad_Block       0x0032   098   098   000    Old_age   Always       -       2
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   057   046   045    Old_age   Always       -       43 (Min/Max 41/54)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       5
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       7
194 Temperature_Celsius     0x0022   043   054   000    Old_age   Always       -       43 (0 20 0 0 0)
195 Hardware_ECC_Recovered  0x001a   023   010   000    Old_age   Always       -       201477547
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       58265526347477
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       4135681133
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       1994868132


Последнее исправление: poiuty (всего исправлений: 1)
Ответ на: комментарий от Deleted

relatime

# mount
/dev/md3 on / type ext4 (rw,relatime,grpquota,usrquota)
proc on /proc type proc (rw)
none on /dev/pts type devpts (rw,gid=5,mode=620)
/dev/md1 on /boot type ext3 (rw,relatime)
/dev/md2 on /home type ext4 (rw,relatime)
none on /proc/sys/fs/binfmt_misc type binfmt_misc (rw)

poiuty
() автор топика
Ответ на: комментарий от poiuty

Гугл как всегда помог. Вчера поставил apc

http://unixforum.org/index.php?showtopic=131848

Сейчас, могу сказать, ситуация стабилизировалась. Причем, решающую роль сыграло решение, которое, казалось бы, не должно было ее сыграть - связь для меня лично очень неявная. Мы отказались от использования APC Cache для кеширования переменных в PHP в пользу Memcache. И проблема с софтовым RAID'ом решилась.

Я даже не знаю, что предполагать. Можно было бы предположить какой-нибудь активный своппинг, но vmstat вроде бы показывал si=0, so=0... Но факт остается фактом - после отказа от APC проблема исчезла.

Детектировать медлительность APC удалось с помощью профайлера XHProf. Если когда-нибудь человечество столкнется с подобной проблемой - профилирование кода очень помогает. 

Отключил APC -> jbd теперь не трескает 99% io

poiuty
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.