LINUX.ORG.RU

Виснет сервер


0

1

Ситуация следующая:

Есть сервер,

[root@srv-4-0 ~]# cat /etc/*relea* cat: /etc/lsb-release.d: Is a directory CentOS release 5.4 (Final) [root@srv-4-0 ~]#

uname -a Linux srv-4-0.***.ua 2.6.18-164.15.1.el5 #1 SMP Wed Mar 17 11:30:06 EDT 2010 x86_64 x86_64 x86_64 GNU/Linux

Симптоматика:

При зависании продолжает пинговатся. Телнетятся ssh и http. Но зайти в консоль не возможно. С бортового квм тоже невозможно зайти, консоль виснет после введения пароля.

Сервер мониторится какти. Из всех графиков только LA показывает всплеск до 8 единиц. Остальные графики (память, своп, сеть) в норме. Причем периодически появляются подобные всплески LA но проходит безболезненно.

В поисках решения проблемы решил сменить аппаратную часть - а именно - мать, память, проц. Благо рядом простаивает идентичный сервер с идентичными железками.

Непомогло.

В логе messages ничего. На экране КВМ тоже нет алярмов.

Рейд живой.

Температура тоже в норме.

На сервере крутится heartbeat для перекидывания айпишника на резервный сервер. Этого не происходит.

На сервере nginx c примонтированным nfs разделом и passenger на бекенде.

Ребят, что подскажете?

P.S Настройки NFS сервера

root@srv-2-0:~# cat /etc/exports

/export/sdb1/ 10.10.10.1(rw,sync,no_root_squash,no_subtree_check)

/export/sdb1/ 172.16.0.4(rw,sync,no_root_squash,no_subtree_check)

/export/sdb1/ 172.16.0.5(rw,sync,no_root_squash,no_subtree_check)

/export/sdb1/ 172.16.0.6(rw,sync,no_root_squash,no_subtree_check)

/export/sdb1/ 172.16.0.7(rw,sync,no_root_squash,no_subtree_check)

/export/sdb1/ 172.16.0.8(rw,sync,no_root_squash,no_subtree_check)



Последнее исправление: I00matolog (всего исправлений: 2)

С бортового квм тоже невозможно зайти, консоль виснет после введения пароля.

Что подразумевается под «бортовым квм»?

Deleted
()

В логах что-нибудь есть? Сетевая активность в это время есть?

Если сервер пингуется, сервисы по телнету откликается, то очень похоже, что сервер «ушёл в себя» из-за высокого LA. Возможно, отчасти в этом может быть виноват nfs, т.к. это IO по сети.

Deleted
()
Ответ на: комментарий от Deleted

Совершенно верно..

Он отзывается на клаву. Но после введения логина и пароля - дальше ничего не происходит. Коммандная строка не появляется.

I00matolog
() автор топика
Ответ на: комментарий от Deleted

Тут из логов можно смотреть только messages. Нет ни syslog ни kernel.log Причем в то время как сервак висит лог messages пишется. Тоесть в это время есть логи snmp запросов от какти.

I00matolog
() автор топика
Ответ на: комментарий от I00matolog

Он отзывается на клаву. Но после введения логина и пароля - дальше ничего не происходит. Коммандная строка не появляется.

Т.е. сам IPMI не виснет, теперь я понял.

Такой вопрос: на сервере есть своп? Я наблюдал дикие тормоза системы, когда несколько процессов сразу начали дико сжирать память и система ушла в своп. После такого система работает настолько медленно, что залогиниться просто невозможно.

Могу предложить следующее: когда сервер ещё функционирует нормально, залогиниться по ip-kvm от имени какого-нибудь пользователя и оставить там открытым top/iotop/любую_другую_утилиту_в_тему и после зависания посмотреть что она показывает.

Deleted
()

У меня было похожее когда сыпался винт.

anonymous
()

- винт может быть глючный + проверить его утилизацию + S.M.A.R.T. + если винт ATA то попробовать понизить ultradma - обновить, возможно траблы ядра

LA 8 - этого не достаточно, чтоб повесить ОС Высокая активность NFS также не ставит колом. (там вряд ли 100+ одновременных коннектов)

kozakd
()
Ответ на: комментарий от Deleted

> когда сервер ещё функционирует нормально, залогиниться по ip-kvm от имени какого-нибудь пользователя и оставить там открытым top/iotop/любую_другую_утилиту_в_тему и после зависания посмотреть что она показывает.

опередил с предложением. это самый адекватный вариант, хотя можно и по ссш залогиниться и тоже пустить топ.

Komintern ★★★★★
()
Ответ на: комментарий от Komintern

1. мысли - поставлю в квм nmon

2. по ssh к серверу во время глюка не достучатся - логин-пасс вводишь и все. консоль висит.

3. винты в рейде. рейд в норме. smart веников тоже .

4. Вот в том то и дело что бывает LA скачет до 20 и с системой все ок. Просто в этот раз сервак завис на LA=8. Обычно LA = 2-3.

I00matolog
() автор топика
Ответ на: комментарий от I00matolog

Ребят - а не может быть трабл, действительно в NFS маунте? Может надо какието специфические настройки?

I00matolog
() автор топика
Ответ на: комментарий от I00matolog

> по ssh к серверу во время глюка не достучатся - логин-пасс вводишь и все. консоль висит.

Вот это именно называется не «по ssh не достучаться» и «консоль виснет», а сервер ОЧЕНЬ занят и очень долго отвечает на все запросы.

Вот в том то и дело что бывает LA скачет до 20 и с системой все ок. Просто в этот раз сервак завис на LA=8. Обычно LA = 2-3.

Откуда ты знаешь, что завис ИМЕННО на LA=8? Если что, я видел сервер с LA=700 и туда заходил по ssh, очень долго, правда.

Deleted
()
Ответ на: комментарий от I00matolog

> по ssh к серверу во время глюка не достучатся

а если отключить таймаут, залогиниться когда сервер нормально работает, запустить топ и ждать глюка?

Komintern ★★★★★
()
Ответ на: комментарий от I00matolog

Какти AFAIK не мониторит в реалтайме.

Deleted
()
Ответ на: комментарий от I00matolog

Ну так поставь. И заодно центос бы обновил, актуальный - 5.5

Deleted
()
Ответ на: комментарий от I00matolog

iostat в centos нет. и в репозитории тоже.

Да ну конечно, сказки рассказывать не надо :)

$ rpm -qf /usr/bin/iostat
sysstat-7.0.2-3.el5_5.1

Deleted
()
Ответ на: комментарий от I00matolog

[root@srv-4-0 ~]# rpm -qf /usr/bin/iostat error: file /usr/bin/iostat: No such file or directory обновить немогу ибо тут крутятся рельсы с хитрым набором джемов которые в следующей версии центоса не работают так как надо девелоперам.

I00matolog
() автор топика

>виснет после введения пароля

Обычно подобная симптоматика возникает при проблемах с вводом-выводом в потрохах ядра. Винты там, падают, файловая система отваливается и т.п.

Попробуй сделать на сервере циклический дамп dmesg на удалённую машину, например, по sshfs. Возможно, увидишь там после зависа что-нибудь интересное.

KRoN73 ★★★★★
()
Ответ на: комментарий от I00matolog

Интерес представляет dmesg (кстати, /var/log/dmesg может быть не актуальным при сбоях в системе, речь именно про команду) в момент зависа. Сейчас-то там всё в порядке должно быть.

KRoN73 ★★★★★
()
Ответ на: комментарий от I00matolog

а может и контроллер, запросто. может память. без логов сложно отследить. у меня такое было один раз, аптайм почти пол года, раз и вставать машина начала, переодично так рандомно.

погонял мемтест, раз посыпалась память, прогнал еще раз, чистая память.

мистика епрст, ан нет, мамка через пару суток сдохла в ноль.

так что может быть даже и такое.

MikeDM ★★★★★
()
Ответ на: комментарий от I00matolog

прогони тест рейда, на всякий пожарный. только заранее забекапся =))))

MikeDM ★★★★★
()
Ответ на: комментарий от I00matolog

я полностью поменял аппаратную часть за исключением винтов. мать, проц и память другая. А проблема осталась

I00matolog
() автор топика
Ответ на: комментарий от I00matolog

сделай клон системы на другие винты, если проблема у клона исчезла однозначно винты. но это плохой метод.

проверяй винты.

MikeDM ★★★★★
()
Ответ на: комментарий от GoNaX

Рядом стоит идентичный сервер.

С идентичным ПО и с идентичными настройками.

Один в один.

Аптайм больше года.

I00matolog
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.