LINUX.ORG.RU

Краш сервера без нагрузки по неизвестной причине

 , ,


0

1

Система дебиан 7.7 Лог dmesg: http://pastebin.com/tt4ej01e

Добрый день! Уже долгое время не могу разобраться с причиной, по которой падает (веб+игровой)сервер. Последний краш произошел в 5 утра, когда нагрузки абсолютно никакой не было, есть немного логов мониторинга системы за последние 5 минут перед зависанием, сразу был исключен перегрев, нагрузка на сеть. Нагрузка на память (в основном загружена она), за последние несколько часов не менялась, только, что может освободилось пару сотен МБ.

Сначала, когда всё работало хорошо месяцами, а потом это началось часто, буквально сразу после старта, после загрузки всех сервисов, то первым делом был проведен memtest, и за 3 часа(2 полных прохода) ничего не выявилось.Следующей под подозрение пала сетевая карта, которая была заменена на дискретную для теста (известная DFE-520TX) в первые сутки-двое, было все хорошо, а теперь всё начинается опять, правда не так часто уже, за последние 5 суток с момента замены, это 2й краш.

Ответ на: комментарий от teamfighter

Нет, не там, к серверу есть физический доступ. У меня была мысль про диск, но почему-то на общем фоне она затерялась. Возможно и правда начался сыпаться диск. Кстати только сейчас вспомнил, как-то незадолго, я загрузил по фтп файл (10-15МБ) и никак не мог его скачать, выдавало 403 ошибку о_0, переименовал, загрузил еще один рядом и начало качаться, подумал магия и не стал заморачиваться :)

BRONNER
() автор топика

memtest, и за 3 часа(2 полных прохода) ничего не выявилось

3 часа - это очень мало для того, чтобы исключать память. Если за сутки не вылетит, то нужно искать в другом месте.

ephecaff
()
Ответ на: комментарий от teamfighter

В общем проверил диск викторией и не знаю радоваться мне или нет. SMART показал отличное состояние, битых секторов нет, медленных(600мс) всего 14шт. Как такое может быть? Видимо проблема в чем-то другом. Может ПО вызывает падение системы? Я не знаю как это проверить, нужен совет.

BRONNER
() автор топика
Ответ на: комментарий от mittorn

Как это сделать? У меня не так много опыта решения подобных проблем с линуксом. У меня есть физический доступ к серверу и возможность подключения к нему монитора, если я еще захожу по ssh, то во время сбоя меня дисконнектит по ssh с сообщением типа «kernel:[ 6890.385536] general protection fault: 0000 [#1] SMP» и еще парой строчек, но с пустым сообщением. А на самом мониторе я наблюдаю что-то похожее на панику, но консоль не позволяет отмотать вверх и смысл содержимого слабо понятен.

p.s. Memtest запустил во второй раз, уже 4 часа прошло, ошибок 0... жду до завтра, днём приду, проверю.

BRONNER
() автор топика

Может оборудование (процессор) yfrhskcz gbpljq?
Но по хорошему надо бэктрейс увидеть.

mittorn ★★★★★
()
Ответ на: комментарий от mittorn

Ну это ясно, включу я HiRes режим консоли, хотя не особо пока понятно как, и не факт, что текст уместится. Может как-то можно вывод консоли сохранять или крашдамп? Потому, что я делал поиск по строке из крашлога по всем файлам в /var/log/ и почему-то ничего не нашел.

Тем временем прошло более 18 часов мемтеста без каких либо ошибок...

BRONNER
() автор топика
Ответ на: комментарий от BRONNER

Тем временем прошло более 18 часов мемтеста без каких либо ошибок...

Если есть возможность - замени память и проверь. memtest может не найти ошибку. Или другими тестерами проверь. Мне когда то http://technet.microsoft.com/en-us/magazine/2008.09.utilityspotlight.aspx эта утилита нашла проблемы.

Legioner ★★★★★
()
Ответ на: комментарий от mittorn

Если я правильно понял то GRUB_CMDLINE_LINUX=«acpi=off» Мне это ни как не помогло

BRONNER
() автор топика
Ответ на: комментарий от BRONNER

К сожалению, этого мало, нужно видеть, что сначала. Если есть возможность, можно попробовать для начала проскроллить экран через Shift+PgUp. Если нет — serial console и netconsole.

post-factum ★★★★★
()
Ответ на: комментарий от post-factum

Проскролить пробовал - не получилось, серийного порта тоже нет, попробую netconsole настроить, спасибо за идею

BRONNER
() автор топика
Ответ на: комментарий от post-factum

После паники не скролят. После неё смотрят на весь собранный лог (в данном случае он - всё, что на экране) и с грустью жмут на резет. Мне ещё удавалось записать лог на камеру в процессе краша, но это возможно только в случае предсказуемого падения.

mittorn ★★★★★
()
Последнее исправление: mittorn (всего исправлений: 1)
Ответ на: комментарий от BRONNER

Другие ядра пробовали? У меня при каждом апгрейде оборудования старые ядра чудить начинали, пока не собирал новую версию вручную. Это решало проблемы без особого копания в причинах глюков.

mittorn ★★★★★
()
Ответ на: комментарий от post-factum

Есть, но тут их не осилят. У меня даже из-за нежелания вскрывать корпус планшета единственная консоль иногда бывает - xterm (да, fbcon бывает сломан на большинстве андройдовых ядер, а иксы кое-как работают).

mittorn ★★★★★
()
Ответ на: комментарий от mittorn

Другие ядра пока не пробовал, да и как-то не очень хочется.

Подключил я netconsole, 1 раз поймал панику, получил строк 5-7 после фразы General protection fault, далее я так понял наверное не смогло передаться, но я заметил там фразу «java Not tainted 3.2.0-4-amd64» успел только скопировать и файл обновился... В общем решил я обновиться до 8й джавы...

BRONNER
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.