Добрый день, Я новичок в Prometheus. Настроил мониторинг, перешел к алертам и попал в тупик.
Есть 2 группы оборудования. 1 - роутеры, 2 - серверы. Есть 2 файла с правилами. В каждом файле присутстывет правило для алерта при привышени времени отклика.
- alert: host_response_time_is_high_via_icmp
expr: sum by (instance) (probe_icmp_duration_seconds) > 0.3
for: 10s
labels:
severity: warning
annotations:
description: "Host {{ $labels.instance }} response time via icmp-protocol is very high ( >300ms ) for more than 1 minutes."
summary: "Host {{ $labels.instance }} response time is {{ humanize $value}}s"
При тестировании, я меняю предел 300мс до значений чтоб алерт сработал. Когда я меняю для группы серверов, все равно обрабатывается группа с роутерами, соотвественно я получаю алерты для роутеров. Для группы серверов алерты (icmp) не приходят вообще. Что я делаю не так? Где туплю?