Вводная такая: Есть большой OpenVPN сервер для объединения филиальных сетей. В какой-то момент начали наблюдаться потери пакетов в туннельной (только внутри) сети из любой точки в любую. Причем проблема затрагивала даже две ноды (OpenVPN-сервер и OpenVPN-client1), живущие в Европе в соседних ДЦ на быстрых и качественных каналах.
Путём чтения логов был выловлен клиент, который выбивает сам себя путём переподключения разных мест раз в минуту – это была легитимная нода, для которой сделан этот клиент, и админ этой ноды, который решил воспользоваться этим сертификатом с своего компа.
В client-config в настройках OpenVPN сервера для этого клиентского CN был прописан iroute с подсетью позади клиента.
Как только переподключения из разных мест были устранены – проблема с потерей пакетов сразу ушла. Теста ради включили дубль этого клиента снова и потери сразу проявились. Т.е. источник проблемы найден, но не понятна её причина.
Пытаюсь написать postmortem о проблеме и смутно помню, что читал где-то что-то в духе «добавление iroute в внутренние таблички openvpn ставит весь туннельный трафик на паузу».
Может кто-то из Лоровцев сможет навести на ответ на вопрос «Что это было?».