LINUX.ORG.RU
ФорумAdmin

Управление инцидентами на основании алертов prometheus

 ,


0

1

Выстраиваем мониторинг, весь софт выдает наружу счетчики, они уходят в прометеус.

Хочется чтобы при возникновении проблем (список правил по которым проблемы диагностируются ещё в проработке) можно было развернуть бюрократию по полной:

  • завести инцидент
  • назначить ответственного
  • написать на него донос предложить ему шаги решения
  • дать ему место для записи постмортема

Всё работает в сети без интернета, нужен on premises

alertmanager выглядит, что если и брать, то много прогать руками, потому что у него алерты больше подходят для обычных дежурств, в которых если что-то починилось, то и успокойся.

Ощущение, что я может быть хочу что-то типа заббикса/нагиоса, но не могу пересилить себя, чтобы их попробовать.

Ответ на: комментарий от maxcom

Мне кажется, что мне нравится grafana oncall. Слегка с ней поработать, повозиться с группировкой и будет ок.

Что важно и чем оно отличается от редмайна?

  1. автоматически подсасывается календарь. Ясно кому звонить
  2. автоматическая эскалация алертов
  3. группировка

Всё это можно напрогать самому и получится самодельная oncall =)

max_lapshin ★★★★★
() автор топика