LINUX.ORG.RU
ФорумAdmin

Сервер виснит наглухо

 


0

0

Здравствуйте

У меня иногда бывает такая проблема. Сервер работает на Debian 9 ( ядро 4.14.0). Сервер становится недоступным. Это не часто, 1-2 раза в месяц. Помогает только перезгрузка. В логах ничего об этом. Обычные логи во время нормальной работы сервера и резко прерываются, как раз в тот момент, когда становится недоступным, а дальше уже логи перезагрузки сервера (перезагружают уже вручную в дц). Кто-нибудь с таким сталкивался? Арендую выделенный сервер.

Сервер работает на Debian 9 ( ядро 4.14.0)

Так, а какие ещё настройки поменяны по сравнению с дефолтом? По умолчанию там 4.9.0-8, в бекпортах есть 4.18.

Vsevolod-linuxoid ★★★★★
()
Ответ на: комментарий от Vsevolod-linuxoid

Больше никаких. Только обновление до 4.14. Но обновился еще в начале года.

airatos
() автор топика

Обычные логи во время нормальной работы сервера и резко прерываются, как раз в тот момент, когда становится недоступным, а дальше уже логи перезагрузки сервера (перезагружают уже вручную в дц)

Можно попробовать сливать логи на отдельный syslog сервер. Может быть удастся увидеть чуть-чуть больше. Ещё стоит добавить netconsole, может быть ещё чуть-чуть больше будет. И можно поставить collectd и писать статистику всякую локально, потом посмотреть. Всё вместе, может быть, что-то даст. А так причины могут быть совершенно разные.

AS ★★★★★
()
Ответ на: комментарий от AS

Спасибо. Займусь этим в ближайшее время

airatos
() автор топика

IPMI или аналога нет на сервере? Интересно посмотреть, что выводится на консоль во время зависания. А так очень похоже на проблемы с железом...

Serge10 ★★★★★
()

4.14.0

Больше играйтесь с ядрами.

anonymous
()

если нет нужды - верните ядро на дефолтовое, если поведение продолжится - ищите аппаратную проблему

zgen ★★★★★
()
Ответ на: комментарий от Serge10

Ситуация вчера вечером повторилась. В последнее время это происходит, как я заметил чаще. Попросил техподдержку подключить KVM. Подключили. KVM пишет «Нет сигнала». Проблема не в KVM, сигнала нет от сервера. Попросил перезагрузку сервера. После этого пошло изображение сразу с логотипа биоса (как на обычных пк при включении). Решил сразу, пока есть возможность с kvm, зайти в настройки биоса. Отключил c-state.

По моему нет смысла сливать логи на отдельный syslog сервер, если сервер виснит наглухо, что аж kvm пишет, что нет сигнала. Попросил поддержку проверить железо сервера. После проверки они сказали, что все норм. Я не знаю как они проверяли. Скорее всего, только визуально посмотрели открыв сервер и все на этом. Потому что стресс тестов не производили и даже не перезагружали сервер.

Короче, не знаю что делать. Может ли ядро так наглухо ложить сервер или только железо на такой способно? Еще где-то читал, что у одного так mysql ложил сервер.

airatos
() автор топика
Ответ на: комментарий от airatos

Попросил техподдержку подключить KVM. Подключили. KVM пишет «Нет сигнала». Проблема не в KVM, сигнала нет от сервера.

Такое может происходить из-за того, что система выключает дисплей из-за неактивности. Это можно отключить вот так:

setterm -blank 0 >/dev/ttyN
setterm -powerdown 0 >/dev/ttyN
Где N в ttyN - это номер виртуальной консоли. Первая - tty1 соответственно.

По моему нет смысла сливать логи на отдельный syslog сервер, если сервер виснит наглухо, что аж kvm пишет, что нет сигнала. Попросил поддержку проверить железо сервера. После проверки они сказали, что все норм. Я не знаю как они проверяли. Скорее всего, только визуально посмотрели открыв сервер и все на этом. Потому что стресс тестов не производили и даже не перезагружали сервер.

Если ядро выдаёт что-то интересное в лог во время зависания, то можно попробовать получить это через serial console. Для этого нужна другая машина рядом и кабель rs232. Или через netconsole, но это менее надёжно.

Deleted
()
Ответ на: комментарий от airatos

Ещё пара вопросов...

Такие проблемы с этим сервером были всегда или начались в какой-то определённый момент? Если в определённый момент, то делались ли в то время какие-то изменения, типа обновления пакетов, изменения конфигов или замены железа?

Настроен ли какой-нибудь мониторинг на сервере? Если да, то неплохо бы посмотреть что там менялось перед зависанием. Типа выедания всей памяти или роста температуры.

Deleted
()
Ответ на: комментарий от Deleted

Такая проблема была и раньше, но она проявлялась 1 раз в 2 месяца. Сейчас происходит по 2 раза в неделю.

На команду «setterm -blank 0 >/dev/tty0» Пишет «setterm: terminal xterm does not support --blank»

airatos
() автор топика
Ответ на: комментарий от airatos

На команду «setterm -blank 0 >/dev/tty0» Пишет «setterm: terminal xterm does not support --blank»

Потому что с эмуляторами терминала это не работает и смысла не имеет. В графическом режиме свои настройки энергосбережения, которые меняются обычно где-то в настройках DE. Но вообще я тебе очень советую отключить графический режим, так как если ядро что-то и выдаёт в лог при зависании, то в графическом режиме ты это скорее всего не увидишь.

Deleted
()
Ответ на: комментарий от Deleted

Подключился к kvm, оказывается хостер не убрал еще. И там эта команда «setterm -blank 0 >/dev/tty1» выполнилась. Сделал для tty0, tty1 и ttyS0.

А что за графический режим? У меня нет такого нету.

airatos
() автор топика
Ответ на: комментарий от airatos

А что за графический режим? У меня нет такого нету.

Я думал у тебя там иксы работают и ты запустил setterm в эмуляторе терминала под ними.

Deleted
()
Ответ на: комментарий от airatos

А есть смысл обновления ядра до самой последней версии 4.18? Может там фикс этого есть?

Ну это тебе решать. Можешь попробовать. Есть шанс, что поможет.

Deleted
()
Ответ на: комментарий от Deleted

Откатился до стабильной 4.9.0-8. Посмотрим как пойдет.

airatos
() автор топика
Ответ на: комментарий от airatos

Проблема не в KVM, сигнала нет от сервера.

Как правило, в момент зависания ядро успевает выдать последние трейсы на консоль. Хорошо бы попытаться их поймать...

Serge10 ★★★★★
()
Ответ на: комментарий от airatos

Такая проблема была и раньше, но она проявлялась 1 раз в 2 месяца. Сейчас происходит по 2 раза в неделю.

А вот это очень похоже на чисто железную проблему. Может, проcто попросить хостера поменять сервер?

Serge10 ★★★★★
()
Ответ на: комментарий от Deleted

это смотря какие у тебя репозитории - если sid то там уже 4.19 завезли

amd_amd ★★★★★
()

в качестве гипотезы:

у нас в одной серверной такое было, когда были глюки с питанием. при повышении нагрузки сервер подвисал. долго парились, меняли память и даже мать. оказалось - не хватало питания на стойку. когда все сервера в стойке начинали активно жрать мощность, начинались зависания.

Iron_Bug ★★★★★
()
Ответ на: комментарий от Iron_Bug

Хорошо напомнили.
2ТС Был случай когда сервак вставал из-за БП. Это происходило почти как у Вас, сначала нечасто, потом все чаще и чаще. И ЧСХ сам сервак моргал диагностикой (в момент остановки) совсем не про то, точнее про отсутствующий элемент которого и не было в нем. Заменили БП и все стало зашибись.
И еще про БП. Сервак, в нем два БП, ручками отключаешь первый ||второй, сервак нормально отрабатывает. Стал перезагружаться. Не часто, но все-таки... По данным с ups-ов вообще ровная линия, никаких бросков по питанию. Так же заменили оба БП и после этого «волосы стали шелковистыми».

anc ★★★★★
()
11 декабря 2019 г.

У знакомого похожая проблема была, тоже на выделенном сервере. Потом оказалось это у них там железо что-то вытворяет, он переехал на серваки https://sartelekom.ru То вроде нету сейчас такого. Мы там тоже когда-то арендовали, как-то не припомню проблем.

Stua_DK
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.