LINUX.ORG.RU
ФорумAdmin

О чем задумывается сервер?


0

1

Привет! Иногда в разные моменты, консоль сервера медленно реагирует на ввод ну и все в целом подвисает. iotop, atop насколько мог понять впорядке в эти моменты. Есть ли какой способ регистрации таких моментов?

О сервере:
Ubuntu10.10
mdadm
drbdadm
pacemaker
kvm

Все пакеты работают нормально. В момент подвисания ни чего из дисков не ребилдится.

Помогите понять что вызывает такое поведение?

★★★★★

О чем задумывается сервер?
Ubuntu10.10

«я такой хороший, меня сам Марк собирал, почему же все пользуются debian stable?»

shty ★★★★★
()
Ответ на: комментарий от shty

а может быть в этом дело

# smartctl -a /dev/sda
smartctl 5.40 2010-03-16 r3077 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

Device: SEAGATE  ST3600057SS      Version: 0006
Serial number: 6SL047WE0000M119KDEU
Device type: disk
Transport protocol: SAS
Local Time is: Thu Apr 21 22:59:31 2011 MSD
Device supports SMART and is Enabled
Temperature Warning Enabled
SMART Health Status: OK

Current Drive Temperature:     51 C
Drive Trip Temperature:        68 C
Elements in grown defect list: 0
Vendor (Seagate) cache information
  Blocks sent to initiator = 1439596284
  Blocks received from initiator = 773525139
  Blocks read from cache and sent to initiator = 297373624
  Number of read and write commands whose size <= segment size = 2433152
  Number of read and write commands whose size > segment size = 0
Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 1458.93
  number of minutes until next internal SMART test = 36

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:    9652775        0         0   9652775    9652775        737.073           0
write:         0        0         0         0          0        396.429           0

Non-medium error count:       14

[GLTSD (Global Logging Target Save Disable) set. Enable Save with '-S on']
No self-tests have been logged
Long (extended) Self Test duration: 6400 seconds [106.7 minutes]

petav ★★★★★
() автор топика
Ответ на: а может быть в этом дело от petav

Отследил

Консоль тормозит когда

top - 23:59:36 up 3 days, 13:49,  1 user,  load average: 3.32, 1.91, 0.89
Tasks: 207 total,   1 running, 206 sleeping,   0 stopped,   0 zombie
Cpu(s):  2.2%us, 88.9%sy,  0.0%ni,  8.9%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  12322768k total,  1382612k used, 10940156k free,   280872k buffers
Swap: 14650364k total,     6604k used, 14643760k free,   132736k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
 2530 libvirt-  20   0  489m 166m 3416 S    0  1.4 409:48.51 kvm
 3352 root      20   0 19392 1400  972 R    0  0.0   0:00.10 top
    1 root      20   0 23888 1872 1276 S    0  0.0   0:01.76 init
    2 root      20   0     0    0    0 S    0  0.0   0:00.02 kthreadd
    3 root      20   0     0    0    0 S    0  0.0   0:27.39 ksoftirqd/0
    4 root      RT   0     0    0    0 S    0  0.0   0:00.11 migration/0
    5 root      RT   0     0    0    0 S    0  0.0   0:00.00 watchdog/0
    6 root      RT   0     0    0    0 S    0  0.0   0:00.24 migration/1
    7 root      20   0     0    0    0 S    0  0.0   0:18.10 ksoftirqd/1
    8 root      RT   0     0    0    0 S    0  0.0   0:00.00 watchdog/1
    9 root      RT   0     0    0    0 S    0  0.0   0:00.48 migration/2
   10 root      20   0     0    0    0 S    0  0.0   0:10.36 ksoftirqd/2
   11 root      RT   0     0    0    0 S    0  0.0   0:00.00 watchdog/2
   12 root      RT   0     0    0    0 S    0  0.0   0:00.20 migration/3
   13 root      20   0     0    0    0 S    0  0.0   0:06.66 ksoftirqd/3
   14 root      RT   0     0    0    0 S    0  0.0   0:00.00 watchdog/3
   15 root      RT   0     0    0    0 S    0  0.0   0:00.99 migration/4
   16 root      20   0     0    0    0 S    0  0.0   0:07.79 ksoftirqd/4
   17 root      RT   0     0    0    0 S    0  0.0   0:00.00 watchdog/4
   18 root      RT   0     0    0    0 S    0  0.0   0:01.07 migration/5
   19 root      20   0     0    0    0 S    0  0.0   0:22.67 ksoftirqd/5
   20 root      RT   0     0    0    0 S    0  0.0   0:00.00 watchdog/5
   21 root      RT   0     0    0    0 S    0  0.0   0:01.22 migration/6
   22 root      20   0     0    0    0 S    0  0.0   0:07.86 ksoftirqd/6
Но что грузит процессор не могу понять

petav ★★★★★
() автор топика
Ответ на: Отследил от petav

Прикольно. Посмотри нагрузку на сеть(в пакетах в секунду а не в мегабитах). А так же dmesg на предмет наличия проблем с винтами, хотя от них это не должно быть.

Короче, что-то в ядре жрёт проц, но непонятно что. А если виртуалку убить то тоже такие проблемы?

true_admin ★★★★★
()
Ответ на: Отследил от petav

При таком top все нормально

top - 00:12:32 up 3 days, 14:02,  1 user,  load average: 0.22, 0.41, 0.60
Tasks: 208 total,   1 running, 207 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.9%us,  3.8%sy,  0.0%ni, 95.3%id,  0.1%wa,  0.0%hi,  0.0%si,  0.
Mem:  12322768k total,  1383708k used, 10939060k free,   280996k buffers
Swap: 14650364k total,     6604k used, 14643760k free,   133120k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
 2530 libvirt-  20   0  489m 166m 3416 S    9  1.4 410:49.38 kvm
 2478 libvirt-  20   0 1751m 413m 3504 S    8  3.4 320:46.34 kvm              76 root      25   5     0    0    0 S    5  0.0 222:46.08 ksmd
 1409 root      15  -5     0    0    0 S    2  0.0  13:21.27 kslowd001        33 root      20   0     0    0    0 S    0  0.0   1:10.84 events/6
 1494 root      RT   0  213m 2792 1932 S    0  0.0   3:01.89 corosync       1736 root      20   0 77696  11m  11m S    0  0.1   0:06.76 stonithd
 5335 root      20   0 19392 1500 1064 R    0  0.0   0:01.53 top            8765 root      20   0 18020 1876 1304 S    0  0.0   0:00.01 drbd
    1 root      20   0 23888 1872 1276 S    0  0.0   0:01.76 init              2 root      20   0     0    0    0 S    0  0.0   0:00.02 kthreadd
    3 root      20   0     0    0    0 S    0  0.0   0:27.41 ksoftirqd/0       4 root      RT   0     0    0    0 S    0  0.0   0:00.11 migration/0
    5 root      RT   0     0    0    0 S    0  0.0   0:00.00 watchdog/0        6 root      RT   0     0    0    0 S    0  0.0   0:00.24 migration/1
    7 root      20   0     0    0    0 S    0  0.0   0:18.10 ksoftirqd/1       8 root      RT   0     0    0    0 S    0  0.0   0:00.00 watchdog/1
petav ★★★★★
() автор топика
Ответ на: комментарий от true_admin

> А так же dmesg на предмет наличия проблем с винтами, хотя от них это не должно быть.

Как dmesg использовать в данном случае не знаю, проверял smart, mdstat все вроде в норме

Посмотри нагрузку на сеть(в пакетах в секунду а не в мегабитах

Как? ))

А если виртуалку убить то тоже такие проблемы?

Пришиб наблюдаю

petav ★★★★★
() автор топика
Ответ на: комментарий от petav

За сетью наблюдаю

 IPTraf
l Iface qqqqqqqqqqqqq Total qqqqqqqqqq IP qqqqq NonIP qqqqq BadIP qqqqqq Activity qqqqqqqqqqqqqqqqqqqqqqqk
x lo                    0             0            0           0         0,00 kbits/sec                  x
x eth0               1574          1574            0           0        55,00 kbits/sec                  x
x eth3                 32            32            0           0        24,60 kbits/sec                  x
x eth5                 31            31            0           0        14,80 kbits/sec                  x
x eth2                 31            31            0           0        28,00 kbits/sec                  x
x                                                                                                        x
x                                                                                                        x
x                                                                                                        x
x                                                                                                        x
x                                                                                                        x
x                                                                                                        x
x                                                                                                        x
x                   
petav ★★★★★
() автор топика
Ответ на: комментарий от petav

Не.. Оно fixed и никакого отношения к сабжу не имеет.
Хотя если с I/O ничего не происходит, то 12309 тоже не подходит...

Tanger ★★★★★
()
Ответ на: комментарий от Tanger

да у меня память забита в нормальном режиме, и с нагрузкой на диск. Тут проблема плавающая, не понятная

petav ★★★★★
() автор топика
Ответ на: комментарий от petav

Кстати, а проверку поверхности жесткого диска не делали? Может есть сектора с большим временем доступа и при обращении к ним система тормозит?

massive
()
Ответ на: комментарий от petav

Посмотри не появляются ли записи от drbd в логах в момент проблем. Вот это вот нездоровая фигня: drbd0: State change failed: Device is held open by someone. Но я не уверен что дело в этом, у мну drbd работал без проблем.

true_admin ★★★★★
()
Ответ на: комментарий от massive

есть сектора с большим временем доступа и при обращении к ним система тормозит?

тогда бы в iowait всё повисло. Хотя бывают глючные дрова и контроллеры которые действительно такое могут устроить. К сожалению сейчас не помню на чём такое видел.

true_admin ★★★★★
()
Ответ на: комментарий от massive

Да, идея проверить железо очень здравая :). Но тут тоже как повезёт. У меня сейчас в сервере торчит винт который под нагрузкой(и в тестах) работает нормально. Но как только нагрузка падает он просто отваливается секунд на 30 или минуту.

true_admin ★★★★★
()
Ответ на: комментарий от true_admin

Вечером подключу все это дело к zabbix

petav ★★★★★
() автор топика
Ответ на: комментарий от true_admin

> Может есть сектора с большим временем доступа и при обращении к ним система тормозит?

Тормоза по дисковой системы вызывают рост wait'ов. Здесь же видим нагрузку, связанную с самой ОС. Ресурсы в большом количестве может требовать любой драйвер в ядре или файервол.

О сборе статистики - никто из вас не знает об vmstat? :(

Solaris10
()
Ответ на: комментарий от Solaris10

незнаю. У меня такое было, в МС нажимаешь запись и временами он тупо ждет 10-20с, а временами все нормально. Стал отключать сервисы. Злодеем оказался Apache, не помогало ничего, пока просто не поставил PHP 5.2.17, и окозалось что сам Apache не причем.
Хотел дать идею отключать сервисы и проверять поможет или нет...

ssbury
()
Ответ на: комментарий от Solaris10

> О сборе статистики - никто из вас не знает об vmstat? :(

Спасибо, погуглю на эту тему

petav ★★★★★
() автор топика
Ответ на: комментарий от ssbury

Проблема плавающая, не знаю по каким законам проявляется

petav ★★★★★
() автор топика
Ответ на: комментарий от t

И процессор так же занят был (i7)

petav ★★★★★
() автор топика
Ответ на: комментарий от true_admin

> что-то в ядре

Значит shty был прав и проблема в Ubuntu 10.10? Тогда надо делаеть апдейт ядра, а если уже сделан - даундейт.

Wormik
()
Ответ на: комментарий от Tanger

> Wormik

А что, там уже есть мнения? Или по прежнему «xxx это 100% фигня и куча спецсловечек в подтверждение», а «yyy это однозначно круто и куча словечек в подтверждение».

Насчет БД - ну не замусоривал бы, а? Может из-за таких как ты ресурс как раз и отстой.

Wormik
()
Ответ на: комментарий от petav

Тему почитал, люди уже давно разобрались что дело в Apache. Скорее всего так и есть, либо мейнтейнеры убунты как всегда начудили.

Wormik
()
Ответ на: комментарий от Wormik

>Насчет БД - ну не замусоривал бы, а?
В мозгу БД плохо управляемая.

Может из-за таких как ты ресурс как раз и отстой

Не понял связи.

Tanger ★★★★★
()
Ответ на: комментарий от Tanger

Тоесть из-за таких как ты засоряется моя БД! И я не могу ее очистить.

Tanger ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.