LINUX.ORG.RU

NIC link down/up on r8168 CentOS 5.5


0

1

Привет форумчанам. Вообщем такая проблема. Стоит центос 5.5, переодически падает линк, причем совершенно рандомо. То стоит и не падает, то через час после ребута, началось, как я заметил, после подключения гигабита. Сервер стоит в хетзнере(не надо говорить, что они говно, я знаю :)). Писал куда только мог, никто, нигде, ничем не помог. Вот логи:

lshw -C network
  *-network
       description: Ethernet interface
       product: RTL8111/8168B PCI Express Gigabit Ethernet controller
       vendor: Realtek Semiconductor Co., Ltd.
       physical id: 0
       bus info: pci@0000:06:00.0
       logical name: eth0
       version: 02
       serial: 40:61:86:cb:ef:d6
       size: 1GB/s
       capacity: 1GB/s
       width: 64 bits
       clock: 33MHz
       capabilities: pm msi pciexpress msix vpd bus_master cap_list rom ethernet physical tp 10bt 10bt-fd 100bt 100bt-fd 1000bt-fd autonegotiation
       configuration: autonegotiation=on broadcast=yes driver=r8168 driverversion=8.018.00-NAPI duplex=full ip=178.63.20.19 latency=0 link=yes multicast=yes port=twisted pair speed=1GB/s
       resources: irq:82 ioport:e800(size=256) memory:fbeff000-fbefffff memory:f6ff0000-f6ffffff(prefetchable) memory:f6f00000-f6f1ffff(prefetchable)


lsmod | grep 816
r8168                 137020  0


Settings for eth0:
        Supported ports: [ TP ]
        Supported link modes:   10baseT/Half 10baseT/Full
                                100baseT/Half 100baseT/Full
                                1000baseT/Full
        Supports auto-negotiation: Yes
        Advertised link modes:  10baseT/Half 10baseT/Full
                                100baseT/Half 100baseT/Full
                                1000baseT/Full
        Advertised auto-negotiation: Yes
        Speed: 1000Mb/s
        Duplex: Full
        Port: Twisted Pair
        PHYAD: 0
        Transceiver: internal
        Auto-negotiation: on
        Supports Wake-on: pumbg
        Wake-on: g
        Current message level: 0x00000033 (51)
        Link detected: yes

dmesg
r8168: eth0: link down
r8168: eth0: link down
r8168: eth0: link up
r8168: eth0: link up
r8168: eth0: link down
r8168: eth0: link down
r8168: eth0: link up
r8168: eth0: link up
r8168: eth0: link down
r8168: eth0: link down
r8168: eth0: link up
r8168: eth0: link up 

uname -r
2.6.18-194.11.1.el5

Как уже этот бред решать, не знаю, бьюсь головой неделю - решение не ясно. На r8169 дропаются пакеты, из-за чего создается впечатление, что сервер «лагает». На 8168 вот такая байда. Ставил с оф. сайта, с репозитариев, elrepo - везде хрень вот эта происходит..

Буду очень благодарен, если кто-то поможет. Можно даже за деньги в разумных пределах, просто уже реально выбился из сил, а начальство требует, чтобы все было стабильно. Спасибо за внимание, жду ответов по сабжу :)


Ответ на: комментарий от dumal

Контакт, к сожалению, нормальный если верить хостеру. Меняли оборудование, свитч, кабель - увы и ах. На rescue системе(хетзнер предоставляет такую) все отлично, никаких падений, т.о. дело в центосе :(

Rayon
() автор топика

Это одна из тысяч «особенностей» реалтековских дров под линух. Тут варианта три: либо расслабиться и получать удовольствие, либо выкинуть реалтек, либо выкинуть линух.

anonymous
()
Ответ на: комментарий от Rayon

Попробуйте другую версию, Вам даже не придется ядро перекомпилировать. Или, как вариант, поставьте другую сетевуху, как посоветовали выше

dumal ★★
()
Ответ на: комментарий от dumal

Другую? Эм, r8169? На ней пакеты дропаются неясно почему. Сетевуху хетзнер другую не ставит, к сожалению.. В Рескью 8169, но я уверен там пакеты будут дропаться, т.к. даже в вики хетзнера про это написано.

Rayon
() автор топика
Ответ на: комментарий от Rayon

Тогда, видимо, самый простой путь - покопаться в залежах железа и отыскать какую-нибудь другую сетевушку

dumal ★★
()
Ответ на: комментарий от dumal

К сожалению с Hetzner этот путь не реален, т.к. у них все под «формат» идет, и только эта сетевуха.. Писал в багрепорт центоса, но там забили и сказали, чтобы писал в реалтек, имеет смысл писать и ждать быстрого решения проблемы?

Rayon
() автор топика
Ответ на: комментарий от dumal

Спасибо, интересно, попробую, правда меня все еще терзают смутные сомнения, что проблема решится таким образом :)

Rayon
() автор топика
Ответ на: комментарий от Rayon

Удачи. Лично я помочь ничем больше не смогу. Может, кто-нибудь из гуру сюда заглянет

dumal ★★
()
Ответ на: комментарий от edigaryev

В чем разница с загрузки с оф. сайта? Я пробовал оттуда(оф.) собирать, результат тот же..

dumal, вам большое спасибо, что уделили теме время и хоть как-то попробовали помочь решить проблему :)

Rayon
() автор топика

2.6.18-194.11.1.el5

Лично я бы первым делом попробовал обновить ядро. Но CentOS... он вряд ли такое вынесет =).

P.S. Уж сколько у меня везде стоит разнообразных риалтеков - никогда никаких проблем не возникало. Может раньше в драйверах на них и было куча ошибок, но сейчас ИМХО уже всё давно исправлено.

Deleted
()
Ответ на: комментарий от Deleted

Попробую собрать новое, отпишусь.

Rayon
() автор топика
Ответ на: комментарий от Deleted

Уж сколько у меня везде стоит разнообразных риалтеков - никогда никаких проблем не возникало.

Сколько я за свою жизнь перевидал реалтеков — практически каждый второй так или иначе глючил. И не только под линухом, но и под фряхой, и под виндой. Но под линухом гораздо чаще.

Может раньше в драйверах на них и было куча ошибок, но сейчас ИМХО уже всё давно исправлено.

Мечтать не вредно.

nnz ★★★★
()
Ответ на: комментарий от Deleted

>В той же теме выяснили, что причина в нехватке памяти в пространстве ядра. И предложили соответствующий работающий фикс.

Это ошибка аллокации памяти в драйвере r8169. У корректно написанных драйверов таких проблем не возникает. // К.О.

nnz ★★★★
()
Ответ на: комментарий от Deleted

Поставил 2.6.35.2, с 8169, при старте 2 раза link up(незнаю, нормально ли). Сейчас погоняю трафик, на старом ядре dropped пакеты появлялись на этом драйвере.

Rayon
() автор топика
Ответ на: комментарий от Deleted

> Лично я бы первым делом попробовал обновить ядро. Но CentOS... он вряд ли такое вынесет =).

Зачем его обновлять, оно и так самое последнее. Hint: от ядра версии 2.6.18 в rhel, по большому счёту, остаётся только номер и ABI. Всё остальное бэкпортируется.

Deleted
()
Ответ на: комментарий от Deleted

Вроде бы все ок, но теперь ядро выдает иногда в терминал

 Message from syslogd@ at Fri Aug 20 15:04:14 2010 ... hetzner68415 kernel: Stack:

Message from syslogd@ at Fri Aug 20 15:04:14 2010 ... hetzner68415 kernel: Call Trace:

Message from syslogd@ at Fri Aug 20 15:04:14 2010 ... hetzner68415 kernel: <IRQ>

Message from syslogd@ at Fri Aug 20 15:04:14 2010 ... hetzner68415 kernel: <EOI>

Message from syslogd@ at Fri Aug 20 15:04:15 2010 ... hetzner68415 kernel: Code: e5 0f 1f 44 00 00 8b 35 ff df 7b 00 e8 dc ff ff ff c9 c3 55 48 89 e5 41 54 53 0f 1f 44 00 00 31 db bf 00 03 00 00 e8 83 f7 ff ff <41> 89 c4 41 81 e4 00 10 00 00 74 16 bf bc 8d 06 00 e8 5b 2c 1b

Message from syslogd@ at Fri Aug 20 15:04:16 2010 ... hetzner68415 kernel: Stack:

Message from syslogd@ at Fri Aug 20 15:04:17 2010 ... hetzner68415 kernel: Call Trace:

Message from syslogd@ at Fri Aug 20 15:04:17 2010 ... hetzner68415 kernel: Code: c9 65 48 8b 04 25 48 b5 00 00 48 89 ca 48 2d c8 1f 00 00 0f 01 c8 0f ae f0 e8 05 f8 ff ff 85 c0 75 09 48 89 d8 4c 89 e1 0f 01 c9 <5b> 41 5c c9 c3 55 48 89 e5 41 54 53 0f 1f 44 00 00 be 10 00 00

Message from syslogd@ at Fri Aug 20 15:04:17 2010 ... hetzner68415 kernel: Stack:

Message from syslogd@ at Fri Aug 20 15:04:17 2010 ... hetzner68415 kernel: Call Trace:

Message from syslogd@ at Fri Aug 20 15:04:18 2010 ... hetzner68415 kernel: Code: 89 e2 49 89 f0 41 b9 08 00 00 00 44 89 75 c4 eb 2b 41 0f be 00 45 29 d9 44 88 c9 d3 f8 23 45 d4 41 8b 44 85 00 44 21 f8 44 31 d0 <89> 02 45 85 c9 75 06 49 ff c0 41 b1 08 48 83 c2 04 ff 4d c4 83

Message from syslogd@ at Fri Aug 20 15:04:21 2010 ... hetzner68415 kernel: Stack:

Message from syslogd@ at Fri Aug 20 15:04:21 2010 ... hetzner68415 kernel: Call Trace:

Message from syslogd@ at Fri Aug 20 15:04:21 2010 ... hetzner68415 kernel: Code: c9 65 48 8b 04 25 48 b5 00 00 48 89 ca 48 2d c8 1f 00 00 0f 01 c8 0f ae f0 e8 05 f8 ff ff 85 c0 75 09 48 89 d8 4c 89 e1 0f 01 c9 <5b> 41 5c c9 c3 55 48 89 e5 41 54 53 0f 1f 44 00 00 be 10 00 00

Message from syslogd@ at Fri Aug 20 15:04:22 2010 ... hetzner68415 kernel: Stack:

Message from syslogd@ at Fri Aug 20 15:04:22 2010 ... hetzner68415 kernel: Call Trace:

Message from syslogd@ at Fri Aug 20 15:04:22 2010 ... hetzner68415 kernel: Code: c9 65 48 8b 04 25 48 b5 00 00 48 89 ca 48 2d c8 1f 00 00 0f 01 c8 0f ae f0 e8 05 f8 ff ff 85 c0 75 09 48 89 d8 4c 89 e1 0f 01 c9 <5b> 41 5c c9 c3 55 48 89 e5 41 54 53 0f 1f 44 00 00 be 10 00 00

Message from syslogd@ at Fri Aug 20 15:04:23 2010 ... hetzner68415 kernel: Stack:

Message from syslogd@ at Fri Aug 20 15:04:23 2010 ... hetzner68415 kernel: Call Trace:

Message from syslogd@ at Fri Aug 20 15:04:23 2010 ... hetzner68415 kernel: Code: c9 65 48 8b 04 25 48 b5 00 00 48 89 ca 48 2d c8 1f 00 00 0f 01 c8 0f ae f0 e8 05 f8 ff ff 85 c0 75 09 48 89 d8 4c 89 e1 0f 01 c9 <5b> 41 5c c9 c3 55 48 89 e5 41 54 53 0f 1f 44 00 00 be 10 00 00

Message from syslogd@ at Fri Aug 20 15:04:24 2010 ... hetzner68415 kernel: Stack:

Message from syslogd@ at Fri Aug 20 15:04:24 2010 ... hetzner68415 kernel: Call Trace:

Message from syslogd@ at Fri Aug 20 15:04:24 2010 ... hetzner68415 kernel: Code: c9 65 48 8b 04 25 48 b5 00 00 48 89 ca 48 2d c8 1f 00 00 0f 01 c8 0f ae f0 e8 05 f8 ff ff 85 c0 75 09 48 89 d8 4c 89 e1 0f 01 c9 <5b> 41 5c c9 c3 55 48 89 e5 41 54 53 0f 1f 44 00 00 be 10 00 00

Message from syslogd@ at Fri Aug 20 15:04:25 2010 ... hetzner68415 kernel: Stack:

Message from syslogd@ at Fri Aug 20 15:04:25 2010 ... hetzner68415 kernel: Call Trace:

Message from syslogd@ at Fri Aug 20 15:04:25 2010 ... hetzner68415 kernel: Code: c9 65 48 8b 04 25 48 b5 00 00 48 89 ca 48 2d c8 1f 00 00 0f 01 c8 0f ae f0 e8 05 f8 ff ff 85 c0 75 09 48 89 d8 4c 89 e1 0f 01 c9 <5b> 41 5c c9 c3 55 48 89 e5 41 54 53 0f 1f 44 00 00 be 10 00 00 

Rayon
() автор топика
Ответ на: комментарий от Deleted

Hint: от ядра версии 2.6.18 в rhel, по большому счёту, остаётся только номер и ABI. Всё остальное бэкпортируется.

Бэкпортируется далеко не всё. А что бэкпортируется - не факт что правильно. Глючность бэкпортированного драйвера реалтек может послужить этому примером.

Deleted
()
Ответ на: комментарий от Rayon

Как ты собирал ядро и из каких исходников?

Deleted
()
Ответ на: комментарий от Deleted

Вот видимо вы правы, не знаю даже, вообщем я откатил это глючное ядро, но не убрал его драйвер r8169, запустил сервер с старым ядром и этим драйвером - о чудо, все работает. Но это пока что, на старте вроде падений линка не заметил, только пару раз link up, вообщем посмотрим до завтра, отпишу по результатам завтра, пока сервер стоит и нагрузка есть. Ранее под 8169 были dropped пакеты, сейчас их пока нет(тьфу-тьфу-тьфу). Я скачивал ванилла ядро.

Rayon
() автор топика
Ответ на: комментарий от Rayon

Проблема появилась раньше, чем ожидали

r8169: eth0: link down
r8169: eth0: link up
r8169: eth0: link down
r8169: eth0: link up
r8169: eth0: link down
r8169: eth0: link up
r8169: eth0: link down
r8169: eth0: link up
не судьба видимо...

Rayon
() автор топика

Точно такая же стоит у меня в рабочем десктопе-сервере, часто этот комп дрючат всякими тестами и ни разу сеть не сбоила.

У меня лишь одно предположение - обновить фирмварь на карточке. У меня ванильное ядро (потому-что не rhel) и реалтековский драйвер из него

$ dmesg |grep 8169|grep driver
r8169 Gigabit Ethernet driver 2.3LK-NAPI loaded

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.