Выстраиваем мониторинг, весь софт выдает наружу счетчики, они уходят в прометеус.
Хочется чтобы при возникновении проблем (список правил по которым проблемы диагностируются ещё в проработке) можно было развернуть бюрократию по полной:
- завести инцидент
- назначить ответственного
написать на него доноспредложить ему шаги решения- дать ему место для записи постмортема
Всё работает в сети без интернета, нужен on premises
alertmanager выглядит, что если и брать, то много прогать руками, потому что у него алерты больше подходят для обычных дежурств, в которых если что-то починилось, то и успокойся.
Ощущение, что я может быть хочу что-то типа заббикса/нагиоса, но не могу пересилить себя, чтобы их попробовать.