LINUX.ORG.RU
ФорумAdmin

Отключается eth на сервере


0

0

ситуация следующая: имеется сервер. на нем стоит НЕ серверная мать и проц (во время сборки решили немного сэкономить). стоит гента. теперь проблема: - если на этот сервер начать гнать трафик (скажем залить гигобайт 5 чего угодно) - он отключает сетевую карту. - если не него НЕ загонять трафик, но дать ему поработать скажем дня три, максимум четыре - он отключает сетевую карту. сам сервер продолжает работать (это видно, если подключиться через KVM). eth в системе в этот момент присутствует, но ничего не пингуется, интернета нет.

проверял со встроеной сетевухой и покупной серверной dlink

один раз во время такого случая - зашел по КВМ и увидел что сервер лежит с кернел паник, скриншот сделать не успел, на плошадке его ребутнули.

подскажите пожалуйста, куда копать и с чего начать поиски неисправности.


Сбой-глюк.

Если сервер ни с того ни с сего падает в kernel panic надо переключится с ~arch на arch. Я таки полагаю, что что-то криво собралось. И хоть сам я фанат Gentoo, вам я советую перейти на бинарные дистрибутивы, например Debian.

Camel ★★★★★
()

А что там с дровами?

У меня похожий косяк был с e1000 на RHEL4u2. После перехода на RHEL4u6 косяк исчез.

nnz ★★★★
()
Ответ на: Сбой-глюк. от Camel

свалился в кернел паник он только один раз. это у меня уже девятый сервер на генте. и только с ним такое приключение приключилось. очень странно. не понятно что делать, как проблему диагностировать. потому что в логах тоже пустота. по логам с ним все отлично. =)

а что значит "переключится с ~arch на arch" - это как происходит?

m604
() автор топика
Ответ на: комментарий от nnz

у меня на двух разных сетевухах такое происходит. вы считаете кривой дистрибутив? обновить дистрибутив должно помочь? просто проблематично - сервер на площадке уже живет. хочется за одну поездку туда все решить с ним.

сейчас стоит ребут раз в день, он вроде живет. но надоело, что ребутится.

m604
() автор топика
Ответ на: комментарий от m604

В принципе, идею насчет Дебиана поддерживаю. Главное, чтобы не убунта.

nnz ★★★★
()
Ответ на: комментарий от m604

ИМХО, смена дистрибутива может не помочь. Что пишется в dmesg, когда отваливается сетёвка? Сервер с самого начал так себя вёл или сначала нормально работал? Можете ещё попробовать выгружать/загружать модуль сетёвки, быстрее чем ребут будет.

mky ★★★★★
()
Ответ на: комментарий от mky

я тоже боюсь, что смена дистрибутива может не помочь. тем более сервер уже рабочий, на нем уже в продакшене висит один проект.

начал он вести себя сразу так, просто в спешке на площадку отвозили, не было времени проверить дмеск молчит как партизан, вообще все логи молчат. если делать /etc/init.d/net.eth0 restart - не помогает, рестартит нормально, работать НЕ начинает.

есть подозрение что может быть мост наедается какой нибудь, там южный или какой отвечает за сетевуху.

я пытаюсь понять как мне максимально точно отдиагностировать проблему, чтобы за один приезд на площадку все уладить.

есть возможности как то удаленно железо промониторить?

выгружать \ загружать модуль сетевухи я не пробовал. но хорошая идея, я попробую в эти выходные. если это сработает - значит действително програмная проблема, если не сработает - надо дальше разбираться. но я уже писал, что я на двух сетевухах тестировал, на встроеной и на PCI-шной... на обоих такая проблема была. сейчас модули обоих сетевух встроены в ядро (два ядра под одну и под другую сетевуху). в выходные перекомпиляю ядро, проведу тесты.

m604
() автор топика
Ответ на: комментарий от Somewho

я же писал, что я пробовал на двух сетевых картах, на встроеной и на PCI-шной. на обеих одинаковый результат.

m604
() автор топика
Ответ на: комментарий от m604

Ещё можете посмотреть счётчик ошибок на интерфейсе. Может на самом деле проблемы на другой стороне, сейчас любое железо бывает глючным. Может просто свитч проглючивает. Ещё можно забить MAC-адрес маршрутизатора и запускать tcpdump и ping (с наружи на на сервере) и смотреть, может пакеты идут в одну сторону.

Мониторинг температуры и напряжения есть? Может БП дает мало вольт.

mky ★★★★★
()
Ответ на: комментарий от mky

счетчик ошибок нулевой =( мониторинг температуры и напряжения - может быть в мать и вшит, но не знаю как к ядру это подключить. буду в выходные пробовать это делать.

по поводу БП - там наоборот обычная мать и серверный БП

m604
() автор топика
Ответ на: комментарий от m604

>мониторинг температуры и напряжения - может быть в мать и вшит, но не знаю как к ядру это подключить

lm_sensors?

nnz ★★★★
()
Ответ на: комментарий от nnz

ага, в выходные буду ядро перекомпилять.

m604
() автор топика
Ответ на: комментарий от m604

Мне кажется если в логах нет ничего, то проблема аппаратная. В моей практике было подобное, я поставил радиатор на чип сетевой, глюк повторялся, но гораздо реже. В итоге заменил сетевую и все прекратилось.

palladium
()

1) Вероятно, кривая мать. На моей мамке, например, при интенсивном обмене данных с USB (особенно с нескольких устройств одновременнго), и при большой сетевой нагрузке - машина виснет с блокировкой по питанию. Такова особенность чипсета или прошивки биосной.

Я бы на вашем месте попробовал обновить ядро, либо откатить назад, если уже стоит последнее. Возможна проблема с дровами на сетевуху. Попробовать обновить прошику на мать (предварительно читая чейнджлоги)

azure ★★
()
Ответ на: комментарий от azure

да, про кривую мать тоже уже думаю. щас все тесты пришли к тому, что мать тупит.

m604
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.