Странные зависания сервера

0

1

Есть арендованный сервер. На нем стоит Ubuntu 12.04. ISPManager.

Деланье бэекапов начинает в 02:28. После 20-25 минут происходит фриз. Пинги есть, http соединение поднимается

wget -O - -S http://1.1.1.1:80/
--2013-03-23 10:25:57--  http://1.1.1.1/
Connecting to 1.1.1.1:80... connected.
HTTP request sent, awaiting response... Read error (Connection reset by peer) in headers.
Retrying.

Bind отдает записи.

Вот Картинки с мунина.

http://s51.radikal.ru/i133/1303/9e/7d3991c8c60d.png

http://s019.radikal.ru/i634/1303/68/c012da016a81.png

Прикол в том, что когда ручками запускаешь бэекапы, все работаеть нормально. А вот вчера эти бэкапы нормально отработали. Все очень странно. В syslog'е никаких записей.

Подскажите, куда копать а то идей нету. Нужна помощь

Ссылка

←	Мультидоменный сервер?

Nginx+fastCGI не видит index.php

→

Кончается память, система уходит в своп?
Бэкапы как делаешь?
Если подключиться к серверу ДО зависания, то что будет во время зависания происходить с ssh-сессией?
Попробуй посмотреть free -m и vmstat, когда оно зависнет. Или прямо перед зависанием. (Munin, это хорошо, но, как видно, он перестает рисовать графики, так что первая идея - адский своппинг).

~~getup~~ ★
(23.03.13 11:15:18 MSK)

Ответ на: комментарий от getup 23.03.13 11:15:18 MSK

1. Не могу сказать, так как после того как он завис ничего не могу узнать про сервер. Вот картинка по памяти. http://i036.radikal.ru/1303/68/54c0d41a8f72.png

2. Бэекапы делаются стандартной тулзой ISPManager. /usr/local/ispmgr/sbin/pbackup backup 1 - это в кроне висит

3. 1 раз получилось такое, ssh сессия работала, тоесть пробелы\ентеры\^c\^z нажимались, но реакции не было никакой.

4. К сожалению, когда оно зависнет я наврядле смогу к нему подключится, тока если зареннее подрубится и ждать... Завтра попробую.

libbkmz
(23.03.13 11:24:33 MSK) автор топика

Ссылка

Ответ на: комментарий от getup 23.03.13 11:15:18 MSK

Какие еще графики нужны?

libbkmz
(23.03.13 11:25:21 MSK) автор топика

Ответ на: комментарий от libbkmz 23.03.13 11:25:21 MSK

А ты попробуй раза 3 ручками бэкап запустить. Вдруг зависнет.
Наваяй скрипт, который каждые, скажем, 5 секунд после старта бэкапа будет сливать куда-нибудь, что выдает top, vmstat, free -m и iostat. Тогда что-то может и видно будет. Munin не даст такой точности.

~~getup~~ ★
(23.03.13 12:32:19 MSK)

Ссылка

Ставлю на выжирание всей памяти и глухой уход в своп

leave ★★★★★
(23.03.13 12:36:39 MSK)

Ответ на: комментарий от leave 23.03.13 12:36:39 MSK

Я это в первом комментарии написал.

~~getup~~ ★
(23.03.13 12:38:10 MSK)

так может вести себя система если iowait очень большой.

рекомендую помониторить iotop -o

MikeDM ★★★★★
(23.03.13 12:42:41 MSK)
Последнее исправление: MikeDM 23.03.13 12:43:03 MSK (всего исправлений: 1)

Ссылка

Тестить буду ночью. По результатам отпишусь.

А если вырубить своп?

libbkmz
(23.03.13 12:46:31 MSK) автор топика

Ответ на: комментарий от getup 23.03.13 12:38:10 MSK

считай мой комментарий «плюсодином» :)

leave ★★★★★
(23.03.13 12:56:35 MSK)

Ссылка

Ответ на: комментарий от libbkmz 23.03.13 12:46:31 MSK

Если вырубить своп, то в дело вступит oomkiller и начнет УБИВАТЬ.
При условии, что проблема действительно в нехватке памяти.

~~getup~~ ★
(23.03.13 13:25:04 MSK)

Ответ на: комментарий от getup 23.03.13 13:25:04 MSK

Это я вкурсе, поэтому и спрашиваю, стоит ли выключать своп для того чтобы определить это? Предположим процесс захавал всю память, oom его кильнет, все развиснет, и запишет в лог чо и почему он кильнул.

Вопрос в том, имеет ли это смысл?

libbkmz
(23.03.13 13:26:56 MSK) автор топика

Ответ на: комментарий от libbkmz 23.03.13 13:26:56 MSK

Если не старшно, что бэкап может получиться поломанным, то определенно стоит так сделать для подтверждения диагноза.

~~getup~~ ★
(23.03.13 13:28:59 MSK)

Ссылка

И система из фриза выходит сама или нужно ребутить? Какой объём swap'а? Попробуйте настроить netconsole, чтобы сообщения от ядра шли на другой сервер, может «отпадывает» жёсткий диск.

mky ★★★★★
(23.03.13 23:34:21 MSK)

Ответ на: комментарий от mky 23.03.13 23:34:21 MSK

18Гб размер свапа.

Сервак нужно ребутить.

libbkmz
(24.03.13 10:37:00 MSK) автор топика

Ответ на: комментарий от libbkmz 24.03.13 10:37:00 MSK

В логах есть хоть какие-то записи после момента фриза до момента ребута?

Если http и dns сервера работают, значит они в ОЗУ. Значит, если даже памяти не хватает и идёт свопинг, ядро в состоянии вытаскивать нужные процессы из swap. Возможно, что это происходило бы медленно, и по ssh зайти было бы нельзя (из-за таймаута на авторизацию), но открытая ssh-сесия бы работала.

Думаю, что можно даже не netconsole настраивать, а просто отправку логов средствами syslogd по сети.

mky ★★★★★
(24.03.13 17:07:38 MSK)

Ответ на: комментарий от mky 24.03.13 17:07:38 MSK

В логах вообще все чисто... Сразу после момента фриза - начало загрузки ядра

ssh сессия работает, но я подозрвеваю что просто соединение поддерживается, а не ссш работает.

libbkmz
(24.03.13 18:08:51 MSK) автор топика

Ответ на: комментарий от libbkmz 24.03.13 18:08:51 MSK

По мне это симптомы «отпадывания» жёсткого диска. Диска нет поэтому в логи ничего записатся не может, и не может ничего прочитатся — выполнится команды по ssh. Либо контроллер, либо диск глючный и при большой нагрузке перестаёт работать как надо.

mky ★★★★★
(25.03.13 02:12:27 MSK)

Ответ на: комментарий от mky 25.03.13 02:12:27 MSK

По мне это симптомы «отпадывания» жёсткого диска.

скорее backplaine, imho.

anonymous
(25.03.13 02:24:40 MSK)

Ответ на: комментарий от anonymous 25.03.13 02:24:40 MSK

Вырубил swap. Просто не получается ввести его в то состояние.

Есть подозрение, что это еще както связано со временем, я начало бэкапов перевел на 2 часа позже. Но не уверен что это дает какойто результат, но 2-3 раза запускаю и нифига не происходит, просто делаются бэекапы, в логах тишина по поводу памяти\дисков.

libbkmz
(25.03.13 10:36:32 MSK) автор топика

Ссылка

Ответ на: комментарий от mky 25.03.13 02:12:27 MSK

У меня как раз недавно отвалился контроллер. Система просто ушла в R/O и могла выполнять только те команды, которые закэшировались в памяти. На остальные - input/Output Error. Так что storage тут не при чём 100% :)

Deleted
(26.03.13 02:06:31 MSK)

Ответ на: комментарий от Deleted 26.03.13 02:06:31 MSK

А у меня 9 лет назад отпадывал контроллер RAID'а на DNS-сервере. По ssh зайти было нельзя, в ранее открытой ssh-сесии ничего не работало, работал только bind. Основную функцию сервер выполнял. Сообщения об отказе дисковой подсистемы были видны только на физической консоли. Примерно через 6 часов работы в таком режиме (почти дотянул до конца рабочего дня) ядро решило обратиться к swap'у, который был на этом же массиве, и всё закончилось kernel paniс.

mky ★★★★★
(26.03.13 03:12:11 MSK)

Ответ на: комментарий от mky 26.03.13 03:12:11 MSK

Но в dmesg же должно что-то попадать?

Deleted
(26.03.13 13:23:39 MSK)

Ответ на: комментарий от Deleted 26.03.13 13:23:39 MSK

Да, но если команды dmesg нет в кеше в ОЗУ, то её не выполнить, чтобы прочитать эти сообщения, поэтому я и советовал настроить netconsole.

Может это и не «отпадывание» диска, но на то, что вся система просто уходит в swap, тоже не похоже, там ведь в логи то должно хоть что-нибудь записываться.

mky ★★★★★
(26.03.13 20:22:02 MSK)

Ответ на: комментарий от mky 26.03.13 20:22:02 MSK

Да, но если команды dmesg нет в кеше в ОЗУ, то её не выполнить, чтобы прочитать эти сообщения

А да, точно :)

Deleted
(26.03.13 20:26:12 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Мультидоменный сервер?

Admin

Nginx+fastCGI не видит index.php

→

Похожие темы