LINUX.ORG.RU
ФорумAdmin

Disk read/write request avg waiting time (w_await)

 , ,


0

1

Проблема - в zabbix постоянно висят две ошибки по обоим дискам:

sda: Disk read/write request responses are too high (read > 20 ms for 15m or write > 20 ms for 15m)

sdb: Disk read/write request responses are too high (read > 20 ms for 15m or write > 20 ms for 15m)

Оба диска собраны в RAID1:

md2 : active raid1 sda4[2] sdb4[3]
      392050688 blocks super 1.2 [2/2] [UU]
      bitmap: 0/3 pages [0KB], 65536KB chunk

md0 : active raid1 sda2[2] sdb2[3]
      87824384 blocks super 1.2 [2/2] [UU]

md1 : active (auto-read-only) raid1 sda3[2] sdb3[3]
      7806976 blocks super 1.2 [2/2] [UU]

Сервер совершенно не нагружен.

Обратил внимание, что когда после аварийной перезагрузки пересобирался RAID, то ошибка под диску sda пропала. Ну и по графику видно - как только появляется реальная активность на дисках, то значения «Disk read/write request responses» падают.

Как так то?

★★★★★

Последнее исправление: Turbid (всего исправлений: 1)
Ответ на: комментарий от anc

sda1:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   080   064   006    Pre-fail  Always       -       93658214
  3 Spin_Up_Time            0x0003   099   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       12
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   079   060   045    Pre-fail  Always       -       80128248
  9 Power_On_Hours          0x0032   083   083   000    Old_age   Always       -       15286 (245 53 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       12
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       1
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   075   064   040    Old_age   Always       -       25 (Min/Max 24/28)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       4
193 Load_Cycle_Count        0x0032   056   056   000    Old_age   Always       -       89996
194 Temperature_Celsius     0x0022   025   040   000    Old_age   Always       -       25 (0 18 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       10690 (27 47 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       1347204245
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       19999196267
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

sdb2:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   079   064   006    Pre-fail  Always       -       76611104
  3 Spin_Up_Time            0x0003   099   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       13
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   079   060   045    Pre-fail  Always       -       77147216
  9 Power_On_Hours          0x0032   083   083   000    Old_age   Always       -       15286 (159 143 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       13
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   075   064   040    Old_age   Always       -       25 (Min/Max 24/29)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       1
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       5
193 Load_Cycle_Count        0x0032   055   055   000    Old_age   Always       -       90029
194 Temperature_Celsius     0x0022   025   040   000    Old_age   Always       -       25 (0 18 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       10668 (171 139 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2013879810
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       15411488303
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0
Turbid ★★★★★
() автор топика
Ответ на: комментарий от Turbid

Если не ошибся в расчетах, то получается почти каждые 10 минут останавливаются (в среднем за весь период), по-моему это перебор.

anc ★★★★★
()
Ответ на: комментарий от anc

Так, а как ты это увидел? Я на одном из дисков для теста сделал так:

smartctl -d sat -s apm,off /dev/sda
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.10.0-12-amd64] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
APM disabled

Как теперь понять что это повлияло?

Turbid ★★★★★
() автор топика
Ответ на: комментарий от anc

Кстати вполне укладывается в описанное в топике

read > 20 ms for 15m or write > 20 ms for 15m)

Пока раскрутиться...

anc ★★★★★
()

Продолжаю наблюдение.

Проблема проявилась сегодня утром. Вот метка start: https://i.imgur.com/5q6yirv.png

В это время я добавил к узлу в Zabbix стандартный шаблон Asterisk - он ходит по HTTP/AMI и собирает статистику.

Сейчас отключил - метка Stop. Вроде полегчало.

Никак не могу понять - как опрос по HTTP может влиять на задержки обращения к диску.

Turbid ★★★★★
() автор топика
Ответ на: комментарий от Turbid

Так, а как ты это увидел?

Два параметра

Power_On_Hours          0x0032   083   083   000    Old_age   Always       -       15286
и
193 Load_Cycle_Count        0x0032   055   055   000    Old_age   Always       -       90029

anc ★★★★★
()
Ответ на: комментарий от Turbid

Они что, на парковку отъезжают?

Да. Load_Cycle_Count. Тебе необходимо отключить автопарковку. Через wdidle3 или idle3-tools

Dimez ★★★★★
()
Ответ на: комментарий от Dimez

Я вчера проделал вот такое:

smartctl -d sat -s apm,off /dev/sda

На sda, потом через несколько часов на sdb.

На данный момент на sda частота парковок уменьшилось до 21 минуты, а на втором - увеличилась до 7 минут. Времени прошло меньше суток, надо пособирать еще статистику.

Но мне кажется что тут дело не в этом - явно как-то влияет опрос из Zabbix.

p.s.

# idle3ctl -g /dev/sda
The drive /dev/sda does not seem to be a Western Digital Drive but a ST1000LM049-2GH172
Use the --force option if you know what you're doing
Turbid ★★★★★
() автор топика
Последнее исправление: Turbid (всего исправлений: 2)
Ответ на: комментарий от Turbid

А, сорри, почему-то подумал, что у тебя wd green.

Dimez ★★★★★
()
Ответ на: комментарий от Turbid

Прошла неделя.

Частота парковок уменьшилось до 241 и 90 минут.

Но изначальная проблема осталась.

cast @Dimez, @anc - куда еще можно посмотреть?

Turbid ★★★★★
() автор топика
Последнее исправление: Turbid (всего исправлений: 1)
Ответ на: комментарий от Dimez

Ну за эту неделю ~45 и ~120 циклов всего на дисках добавилось.

Turbid ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.