LINUX.ORG.RU
ФорумAdmin

Centos gateway пропадают устройства

 


0

1

Всем привет. На предприятии стоит скада система с gateway сервером на centos. Внезапно на новогодних праздниках 4 января возникла проблема - каждые 2-5 минут пропадает связь с разными устройствами в сети (чаще всего с ИБП, которые опрашиваются по SNMP, но не только они, snmp тоже на gateway сервере) и появляется спустя 2 минуты. В момент потери соединения, устройство не пингуется на gateway, но пингуется на компьютерах. Ранее такая проблема уже возникала полгода назад и при попытке пинга на gateway сервере возникало сообщение «недостаточно буферного пространства». Решилась тогда данная проблема вводом команды:

echo 8192 > /proc/sys/net/ipv4/neigh/default/gc_thresh3 

Но теперь это не помогает и устройство поочередно отваливаются и снова появляются. Прошу помощи.



Последнее исправление: Travel82 (всего исправлений: 2)

Какая у тебя модель - push или pull?

  1. Устройства присылают данные на шлюз?

или

  1. Шлюз опрашивает устройства?

С какой частотой опрашиваете устройства? Может быть проблема в очень частом опросе очень большого числа устройств?

Если да, то в этом нет смысла. Опрашивайте устройства раз в минуту. Если устройство поддерживаете snmp-traps, то настройте snmp на устройстве, чтобы отсылал сообщение при важном событие (например, on-battery, on-voltage).

Nurmukh ★★★
()
Ответ на: комментарий от Nurmukh

Отваливаются не только устройства, опрашиваемые по SNMP. Службу опроса SNMP вообще останавливаю и все равно некоторые устройства теряют связь периодически.

Travel82
() автор топика

Похоже что умирает сетевая - по перегреву отвал, перезагрузка контроллера, остывание и вновь запуск. Если ошибок по буферам как раньше нет.

VKraft ★★
()
Ответ на: комментарий от Travel82

А есть пирометр чтобы взять и проверить версию с нагревом сетевой карты. Оборудование промышленное, может там действительно очень жарко.

Nurmukh ★★★
()
Ответ на: комментарий от Nurmukh

Пирометра нет, но можно подумать где взять. Но неужели может полгода работать без перебоев и внезапно начать после похожей проблемы.

Travel82
() автор топика
Ответ на: комментарий от Nurmukh

Увеличил период опроса в утилите SNMP - не помогло.

Travel82
() автор топика
Ответ на: комментарий от Nurmukh

Вот вывод команды dmesg в двух частях. Чуть больше года назад перешли из зоны 172.20 на 172.21, так что видимо в этом логе что-то не очень хорошее происходит, но так было и в эти полгода, когда все работало. https://pastebin.com/rLynm8Me https://pastebin.com/dahVpXAG

Travel82
() автор топика
Ответ на: комментарий от Nurmukh

Устройства отваливаются так сказать по очереди, то один, то другой, не все разом. И кстати все эти отваливающиеся устройства в bond3 находятся. bond3 это так сказать внешняя сеть.

P.S. Привет с Казахстана.

Travel82
() автор топика

Arp таблицу чистил, gateway сервер перезагружал, на ИБП 172.21.15.x всех выключил ipv6, хотя он и так на gateway выключен, увеличивал время опроса в SNMP скрипте, игрался с параметрами gc_thresh и прочими связанными с arp, нашел комп 172.21.0.41 на котором стояла прога мониторинга ИБП и он спамил арп запросами на все ИБП, отключил его. Ничего из этого не помогло. Знающий человек подсказал, что дело может быть в большом кол-ве броадкаст запросов, т.к. на всех устройствах, в том числе ИБП маска 255.255.0.0. Выкладываю настройки сети с gateway сервера и dump.pcap после tcpdump на интерфейсе bond3 (на нем сидят все 172.21.x.x устройства). Прошу помощи. https://yadi.sk/d/77-00fOEut4PDg https://yadi.sk/d/EP22HDiYyW2a5Q

Travel82
() автор топика
Ответ на: комментарий от Travel82

Пояснение по устройству сети. Есть много электрических подстанций с разными устройствами в разных подсетях с айпи 172.21.x.x (172.21.15.x для ИБП, 172.21.10.x для измерительных приборов и т.д.) с маской 255.255.0.0 и шлюзом 172.21.0.211 (gateway сервер с firewall). Есть в сети обычные компьютеры с айпи 172.21.0.x с той же маской и шлюзом. На подстанции стоит L2 свитч, в который приходят все устройства. Есть серверная в которой стоят несколько опросных свитчей и 2 головных свитча, и gateway сервер в качестве шлюза. В момент отвала в скада системе, устройство (чаще всего ИБП, опрашиваемый по SNMP) перестает на 20-30 секунд пинговаться на gateway сервере, но продолжает пинговаться на компьютерах и даже доступ в веб-морду есть. Заметил, что если SNMP скрипт включать, то становится хуже и устройства (даже не опрашиваемые по SNMP) начинают чаще отваливаться. Возможно в этом есть какая-то логика.

Travel82
() автор топика
Ответ на: комментарий от Travel82

А можно таблицу маршутизация с гетвея в момент пропадания пингов? И еще трассировку с гетвея до оборудования куда пропала связь? Так же можно посмотреть статистику интерфейса?

IMP
()
Ответ на: комментарий от IMP

Заметил, что в тоже время, когда все началось, начали активно (но не каждый день) отваливаться порты на опросных свитчах и несколько раз даже на головных, как раз те, которые идут на gateway.

https://ibb.co/3BtprNW

Travel82
() автор топика
Ответ на: комментарий от Travel82

Смотрите логи на свичах, статистику по портам. Возможно некоректно отрабатывает STP, если у вас такой не отключен и не настроен.

IMP
()
Ответ на: комментарий от IMP

Увидел, что падают порты на опросных свитчах иногда и в этот момент настроенное RSTP перестраивает топологию. Прикладываю очень схематичную схему сети, может у кого есть какие идеи.

https://ibb.co/z7RbVmj

Travel82
() автор топика
Ответ на: комментарий от Travel82

Смотри логи свичей почему отваливаются интерфейсы. А опросные коммутаторы у тебя в стеке или как ты регулируешь избыточность аплинков? RSTP настроен?

IMP
()
Ответ на: комментарий от Travel82

Оказалось рутом стал не тот коммутатор в rstp, изменил приоритеты. Топология теперь не перестраивается по 3-4 раза в час, но 1-2 раза в день все равно перестраивается, порты так же отваливаются. Не знаю куда и копать.

Travel82
() автор топика
Ответ на: комментарий от Travel82

гуглить «tcn flood» смотреть с каких портов летят bpdu

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.