История изменений
Исправление intelfx, (текущая версия) :
Alert manager не только на почту инфу слать может. На него можно какие угодно хуки навешать, в том числе перезапуск.
Там из релевантного есть только вебхуки. Вебхуки — это, на минуточку, HTTP-сервер с REST API, конфиг с правилами и метамониторинг (если действие не выполнилось, синтезировать новый алерт). Это всё можно навелосипедить, но я не хочу. Вдруг уже есть готовое?
Про не логиниться не очень понятно. Сделай отправку на почту результата выполнения действия. Если письмо не пришло - разбираешься.
Этот софт называется systemd. Выправь свои юниты чтобы фейлившаяся задача всегда означала пофейлившийся юнит. И не было такого что юнит как бы здоров а задача не выполнена.
Не нужно учить меня, как пользоваться systemd :) Это само собой. Но фейлы кто-то должен собирать. Я постоянно логинюсь на сервер, делаю systemctl --failed
и потом смотрю логи за последний запуск пофейлившихся юнитов. Я больше не хочу так делать.
Исправление intelfx, :
Alert manager не только на почту инфу слать может. На него можно какие угодно хуки навешать, в том числе перезапуск.
Там из релевантного есть только вебхуки. Вебхуки — это, на минуточку, HTTP-сервер с REST API, конфиг с правилами и метамониторинг (если действие не выполнилось, синтезировать новый алерт). Это всё можно навелосипедить, но я не хочу. Вдруг уже есть готовое?
Про не логиниться не очень понятно. Сделай отправку на почту результата выполнения действия. Если письмо не пришло - разбираешься.
Этот софт называется systemd. Выправь свои юниты чтобы фейлившаяся задача всегда означала пофейлившийся юнит. И не было такого что юнит как бы здоров а задача не выполнена.
Не нужно учить меня, как пользоваться systemd :) Это само собой. Но фейлы кто-то должен собирать. Я постоянно логинюсь на сервер и делаю systemctl --failed
и потом смотрю логи за последний запуск пофейлившихся юнитов. Я больше не хочу так делать.
Исправление intelfx, :
Alert manager не только на почту инфу слать может. На него можно какие угодно хуки навешать, в том числе перезапуск.
Там из релевантного есть только вебхуки. Вебхуки — это, на минуточку, веб-сервер с REST API, конфиг с правилами и метамониторинг (если действие не выполнилось, синтезировать новый алерт). Это всё можно навелосипедить, но я не хочу. Вдруг уже есть готовое?
Этот софт называется systemd. Выправь свои юниты чтобы фейлившаяся задача всегда означала пофейлившийся юнит. И не было такого что юнит как бы здоров а задача не выполнена.
Не нужно учить меня, как пользоваться systemd :) Это само собой. Но фейлы кто-то должен собирать. Я постоянно логинюсь на сервер и делаю systemctl --failed
и потом смотрю логи за последний запуск пофейлившихся юнитов. Я больше не хочу так делать.
Исходная версия intelfx, :
Alert manager не только на почту инфу слать может. На него можно какие угодно хуки навешать, в том числе перезапуск.
Там из релевантного есть только вебхуки. Вебхуки — это, на минуточку, веб-сервер с REST API, конфиг с правилами и метамониторинг (если действие не выполнилось, синтезировать новый алерт). Это всё можно навелосипедить, но я не хочу.
Этот софт называется systemd. Выправь свои юниты чтобы фейлившаяся задача всегда означала пофейлившийся юнит. И не было такого что юнит как бы здоров а задача не выполнена.
Не нужно учить меня, как пользоваться systemd :) Это само собой. Но фейлы кто-то должен собирать. Я постоянно логинюсь на сервер и делаю systemctl --failed
и потом смотрю логи за последний запуск пофейлившихся юнитов. Я больше не хочу так делать.