LINUX.ORG.RU
ФорумAdmin

Сеть на 10Гб, отваливаються адаптеры

 , ,


2

1

Есть два сервера на убунте 14.04 и 16.04 с Intel X540-T2 10Гб сетевыми картами и маршрутизатор Netgear XS708E на 8 портов 10Гб.

адаптеры: https://ark.intel.com/ru/products/58954/Intel-Ethernet-Converged-Network-Adap...

Свич: http://www.netgear.com/support/product/xs708e

Я организовал NFS файл сервер для хранилища и быстрого чтения записи на первый сервер где установлен рейд массив с дисков. Но возникла проблема в том, что раз, или более, в сутки адаптеры отваливаються с логом в dmsg и NFS клиент намертво зависает до перезагрузки(меня это не устаревает):

ixgbe 0000:04:00.0: eth0: NIC Link is Down

ixgbe 0000:04:00.0: eth0: NIC Link is Up 10 Gbps, Flow Control: RX/TX

ixgbe 0000:04:00.0: eth1: NIC Link is Down

ixgbe 0000:04:00.0: eth1: NIC Link is Up 10 Gbps, Flow Control: RX/TX

Эта проблема у меня уже давно, так что я перепробовал обновлять драйвера и прошивки адаптеров но ничего не помогает.

Кто сталкивался с такой проблемой? Кто работал с такими адаптерами и свичом? Я уже не знаю что делать...

То есть в логах Link Up, а пакеты не ходят, или проблема только с NFS-клиентом?

mky ★★★★★
()

и NFS клиент намертво зависает до перезагрузки(меня это не устаревает):

ИМХО чинить надо NFS клиент, хотя хз возможно ли. Не должны клиенты падать от проблем в сети. Если падают - ну их нафиг такие клиенты.

af5 ★★★★★
()
Ответ на: комментарий от af5

Это верно для NFS v4. Версия 3 и ниже соединение не восстанавливают

fox-mage
()
Ответ на: комментарий от alex_qt

После ″NIC Link is Up 10 Gbps″ пакеты ходят (ping и т.д.). И раз уж тут заговорили про версии NFS, то какая у вас версия NFS и tcp или udp?

mky ★★★★★
()

Я натыкался на похожий стук с 1 GbE от Intel. В разных случаях и с разными ядрами было два разных решения:

1. pcie_aspm=off в параметрах ядра
2. ethtool -K eth0 tso off

Вдруг поможет...

AS ★★★★★
()
Ответ на: комментарий от mky

В момент с DOWN до UP сеть мертва, но после UP интернет работает, а вот nfs клиент лежит и не отвечает. У меня NFS v4 tcp, монтирую так, хотя перепробовал кучу параметров, но они не помогают. /etc/fstab

192.168.1.225:/ /media/nfs nfs intr,soft,bg,nfsvers=4,timeo=30,retrans=10,actimeo=1800,noatime,proto=tcp,nofail=60 0 0

alex_qt
() автор топика
Ответ на: комментарий от alex_qt

так же получаю такие сообщения от NFS nfs: server SERVERNAME not responding, still trying

alex_qt
() автор топика

Тип кабеля RJ-45 Category-6 up to 55 m; Category-6A up to 100 m

А кабели, то соответствую? Заменять пробовали на явно не лагающие? Например с другого сервера, на котором проблема не фиксируется. Раз уж все проверили.

ваш кэп

lebfr
()

со стороны свича никаких фич лишних не настроено? В логах что у свича? линки в ether-channel (бондинг)? или каждый линк в своем VLAN? на сервере интерфейсы в разных VLAN? Петля?
Прошивка на свиче последняя?
Патчкорд - вряд ли, потому как оба сразу.

Vlad-76 ★★★★
()
Ответ на: комментарий от alex_qt

у модуля ixgbe есть параметры для debug какого нибудь, чтобы понять причину дисконнекта.

Vlad-76 ★★★★
()
Ответ на: комментарий от lebfr

Длинна кабеля 1м. Пробивал менять кабеля (с одной партии) не помогло. Другого сервера нету чтоб проверить кабеля. На клиенте и на сервере пробовал разные комбинации bonding 0 и 1 (балансер, бекап), та же фигня. Прошивка на свиче последняя. Заметил что на свиче в статистике есть некоторое количество ошибок но думаю что это следствие падения клиентов, хотя не уверен. Я свич брал б.у. с ебей так что не могу на 100% бить уверенным в его бесглючности. Кстати, иногда получаю ixgbe 0000:01:00.1: Adapter removed. Но очень редко как повезет. А может бить проблема в биос? Но правда на сервере и на клиенте совсем разные метеринки под i7 и под Xeon.

alex_qt
() автор топика
Ответ на: комментарий от alex_qt

Я временно подключил теми же кабелями в лан 1Гб порт на материнке и падений не било.

Странно, получил это: 2NVRM: Xid (PCI:0000:04:00): 13, Graphics SM Warp Exception on (GPC 0, TPC 2): Out Of Range Address

alex_qt
() автор топика
Ответ на: комментарий от alex_qt

Попробуйте порты 10Г на скорость 1Г переключить.
Статистика на свиче на интерфейсе (контроллер интерфейса), что показывает?
Если не уверены в безглючности свича, то начните с него.
Сетевуху 10Г передернуть в материнке.
Если порты 10Г на сервере друг в друга включить - падения продолжаются?

Vlad-76 ★★★★
()
Ответ на: комментарий от Vlad-76

Пока нет физического доступа, не могу проверить. Буду на днях на месте,посмотрю и попробую соединить p2p. И попробовать 1Гб режим. Посмотрю debug на адаптерах и лог на свиче. А может быть что не хватает памяти шине PCIe или ядру?

alex_qt
() автор топика
Ответ на: комментарий от alex_qt

«А может быть что не хватает памяти шине PCIe или ядру?» Сильно сомневаюсь.
На норм работающем оборудовании не должно быть ошибок

ОСь норм грузится? dmesg ошибки кажет? Память для уверенности можете протестить. Материнка сервера какая?
дебаг на консоль dmesg -n 8
Попробуйте команды ethtool -A eth0 autoneg off rx off tx off
ethtool -A eth1 autoneg off rx off tx off
ПОпробуйте жестко выставить скорость и дуплекс с двух сторон и на стороне свича и на стороне сетевой карточки.
в README на драйвер пишут

Cisco Catalyst 4948-10GE port resets may cause switch to shut down ports
------------------------------------------------------------------------

82598-based hardware can re-establish link quickly and when connected to some
switches, rapid resets within the driver may cause the switch port to become
isolated due to "link flap". This is typically indicated by a yellow instead
of a green link light. Several operations may cause this problem, such as
repeatedly running ethtool commands that cause a reset.

A potential workaround is to use the Cisco IOS command "no errdisable detect
cause all" from the Global Configuration prompt which enables the switch to
keep the interfaces up, regardless of errors.
Может быть у Вас похожий случай.

попробуйте запостить проблему на nag.ru - тут спецов по сетевому оборудованию поболее будет
http://forum.nag.ru/forum/index.php?showforum=4
http://forum.nag.ru/forum/index.php?showforum=3

Vlad-76 ★★★★
()
Последнее исправление: Vlad-76 (всего исправлений: 5)
Ответ на: комментарий от Vlad-76

Материнка на сервере, простая потребительская Z170A-PC-MATE В ней стоит плата рейд контроллера(PCIe) и 10Гб адаптер(PCIe). https://ru.msi.com/Motherboard/Z170A-PC-MATE.html#hero-overview http://www.ixbt.com/storage/lsi-sas9260-8i.shtml

Клиент: Материнка Z10PED8_WS + 3 видеокарты https://www.asus.com/ru/Motherboards/Z10PED8_WS/

Обе загружаются нормально.

Но сеть падает как на сервере так и на клиенте.

alex_qt
() автор топика
Ответ на: комментарий от alex_qt

«Но сеть падает как на сервере так и на клиенте.» в логах клиента и сервера в одно и тоже время сообщения об отвале 10Г интерфейсов?
как вариант найти 10Г свич на тест

Vlad-76 ★★★★
()
Ответ на: комментарий от Vlad-76

как вариант найти 10Г свич на тест

Можно попробовать петлю сделать в пределах этого же коммутатора на access-портах в разных VLAN. По крайней мере, можно будет посмотреть на стабильность линка между портами коммутатора.

AS ★★★★★
()
Ответ на: комментарий от Vlad-76

На сервере и на клиенте отвал интерфейсов происходит не одновременно, а случайно.

alex_qt
() автор топика
Ответ на: комментарий от AS

петля через свич - это может не сработать - с точки зрения логики работы свича это может быть петля
клиента и сервер воткнуть напрямую друг в друга по 10Г интерфейсам - и увидим проблема в свиче или нет.
Если свич выбрасывать жалко - вдруг программно вылечить глюк можно и свич вцелом исправен - то читать доки и гуглить.
ждем результатов тестов.

Vlad-76 ★★★★
()
Последнее исправление: Vlad-76 (всего исправлений: 1)
Ответ на: комментарий от AS

очень часто бывает проблема на l2 уровне - согласование скорости, дуплекса между разными вендорами.

Vlad-76 ★★★★
()
Ответ на: комментарий от Vlad-76

Тесты обязательно проведу когда буду на месте через пару дней. Могу сказать что сейчас, временно, подключено через 1Гб лан на материнке(вместо 10Гб адаптеров) в тот же свич и все нормально, падений 1Гб нету.

alex_qt
() автор топика
Ответ на: комментарий от AS

1. pcie_aspm=off помогло! 2. ethtool -K eth0 tso off не помогло.

Вроде помогло pcie_aspm=off, 3 дня без вылетов. Но пока наблюдаю!

alex_qt
() автор топика
Ответ на: комментарий от alex_qt

Странно, но две недели работало нормально и я уже обрадовался, но потом все посыпалось.... в день падает сеть раз по 10 на сервере и на клиенте.

ixgbe 0000:04:00.0: eth0: NIC Link is Down

ixgbe 0000:04:00.0: eth0: NIC Link is Up 10 Gbps, Flow Control: RX/TX

Сейчас продолжаю экспериментировать...

alex_qt
() автор топика
Ответ на: комментарий от alex_qt

Попробовал изолировать 10Гб сеть в отдельную под сеть в которой только сервер-свич-клиент, падений стало меньше где-то 1 раз в 24ч, раньше било 3-5 падений.

Теперь пробую избавиться от свича, то есть сервер и клиент подключены на прямую друг в друга. Пока жду 24ч....

alex_qt
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.