Добрый день! С недавних пор, как на сервере развернули чудо-приложение написанное на java и которое стало использоваться все диски этого сервера, серверу стало очень плохо:
[root@xxx ~]# iostat -xhm
Linux 2.6.32-642.el6.x86_64 (xxxx) 08/28/2017 _x86_64_ (32 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
3.85 0.20 1.30 26.48 0.00 68.18
Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 9.64 954.54 198.02 881.11 8.23 7.19 29.27 0.33 0.31 0.34 0.30 0.10 11.30
sdc 43.68 218.98 29.56 24.24 0.31 0.95 48.04 0.57 10.60 9.62 11.79 2.24 12.04
sdd 119.57 206.23 108.51 22.40 1.00 0.89 29.65 1.51 11.55 11.21 13.21 2.83 37.03
sdb 55.33 52.59 51.11 6.71 0.70 0.23 32.99 0.51 8.78 9.16 5.92 2.75 15.90
sdh 35.83 0.06 25.41 0.05 0.24 0.00 19.62 0.18 6.88 6.88 4.62 1.51 3.84
sdi 254.53 376.18 170.39 42.21 1.85 1.64 33.56 3.23 15.20 3.92 60.74 3.42 72.71
sdf 77.95 138.61 67.99 18.18 0.65 0.61 29.90 1.00 11.57 11.12 13.26 3.12 26.92
sdj 427.69 265.24 236.55 32.97 3.04 1.17 31.97 3.57 13.23 13.77 9.36 3.59 96.68
sdk 109.94 185.25 97.91 22.08 0.92 0.81 29.59 1.56 12.98 12.14 16.71 3.10 37.25
sde 227.63 283.89 156.28 29.95 1.63 1.23 31.46 2.51 13.47 12.61 17.97 2.53 47.10
sdl 286.41 174.09 184.14 19.83 1.98 0.76 27.49 2.69 13.20 13.07 14.44 2.53 51.54
sdm 57.02 320.55 42.94 33.12 0.44 1.38 48.96 1.13 14.91 11.84 18.90 2.62 19.89
sdg 289.45 246.58 205.43 27.90 2.18 1.07 28.56 3.10 13.29 7.89 53.04 3.24 75.71
dm-0 0.00 0.00 208.13 1835.64 8.23 7.19 15.45 0.11 0.05 0.34 0.01 0.06 11.26
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 8.00 0.00 0.06 0.06 0.00 0.06 0.00
Вывод TOP:
top - 18:32:45 up 12 days, 8:38, 3 users, load average: 51.36, 50.24, 49.55
Tasks: 681 total, 1 running, 680 sleeping, 0 stopped, 0 zombie
Cpu(s): 3.8%us, 1.1%sy, 0.2%ni, 68.2%id, 26.5%wa, 0.0%hi, 0.2%si, 0.0%st
Mem: 131909456k total, 127509032k used, 4400424k free, 42026080k buffers
Swap: 4194300k total, 0k used, 4194300k free, 52157492k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
60262 xxxx 20 0 44.6g 12g 1.9g S 56.2 9.7 15298:38 java
5616 xxxx 20 0 26.5g 3.5g 12m S 42.6 2.8 5095:33 java
4735 xxxx 20 0 26.7g 3.6g 12m S 38.7 2.9 6325:49 java
5658 xxxx 20 0 13.7g 2.0g 12m S 13.6 1.6 554:24.34 java
Как видно WA доходит до 25%, что очень много... и load average: 51.36, 50.24, 49.55... По всем признакам что-то не так с дисковой подсистемой. Можно как-то выяснить в чем точная причина ? Очереди на диск замерить? Или может быть есть где-то в ядре счетчика , размер буфера, переполнение его и другая информация которая реально отражает работу с дисками ?