Алерты от grafana alerts и alertmanager: они всегда такие неудобные?

0

2

Начав обмазывать всё мониторингом и алертами, остановиться невозможно, всё что делают вокруг люди, обрастает какими-то алертами, которые сыпятся в чаты.

Вопрос в той фигне, которую я вижу, проходя по ссылке в алерт от alertmanager и grafana alert.

В обоих системах из коробки по ссылке - нечитаемая хрень. Чтобы вникнуть в то, что там происходит, как правило нужен автор оригинального алерта (а найти его вообще непонятно как).

Это очень отличается от моего представления о полезном алерте, в котором при переходе должно быть плюс-минус понятно, что вообще происходит и что делать Может быть такое требование очень дорогое в реализации?

А как у вас?

←	defer в C быть!

Задать флаги и опции gcc «глобально» в обход Cmake и прочих

→

Так зачем вы неудобные делаете? Делайте удобные.

ya-betmen ★★★★★
(17.03.25 12:18:49 MSK)

Ответ на: комментарий от ya-betmen 17.03.25 12:18:49 MSK

ой, ну самый простой ответ, конечно. Ты хоть переходил туда? Я говорю про дефолт.

max_lapshin ★★★★★
(17.03.25 13:26:57 MSK) автор топика

суть мониторинга в классическом понимании ITIL, заключается в том, чтобы кто-то сообщал о проблемах несколько раньше (скажем за час до) чем пользователи, а уж тем более начальство, начнут предъявлять претензии (иначе будет: Шеф, все пропало! Гипс снимают, клиент уезжает!). Графана и иже с ними - это никак не мониторинги, они просто какие-то метрики собирают, которые уже после аварии можно хоть как-то попытаться скоррелировать и худо-бедно установить (а может и не установить, всякое бывает) из-за чего проблема возникла.

borisych ★★★★★
(17.03.25 15:33:19 MSK)

Ответ на: комментарий от borisych 17.03.25 15:33:19 MSK

заключается в том, чтобы кто-то сообщал о проблемах несколько раньше

Поэтому там есть алерты.

Графана и иже с ними - это никак не мониторинги

И поэтому графана это конечно же мониторинг. Хватит чушь нести.

anonymous
(17.03.25 15:35:58 MSK)

А как у вас?

А у нас в квартире газ. А у тревог в Alertmanager есть понятные названия, позволяющие определить что случилось, метки, указывающие где случилось, длинные описания и ссылки на runbook и выражение prometheus’а в аннотациях. Чего вам ещё нужно?

ugoday ★★★★★
(17.03.25 15:37:30 MSK)
Последнее исправление: ugoday 17.03.25 15:38:09 MSK (всего исправлений: 1)

Это очень отличается от моего представления о полезном алерте, в котором при переходе должно быть плюс-минус понятно, что вообще происходит и что делать Может быть такое требование очень дорогое в реализации?

Для этого нужно написать нормальный description для алерта, графана это позволяет. Напиши там что происходит и что делать, и тому кто видит алерт будет понятно что происходит и что делать. Нет таких систем мониторинга которые сделают это за тебя.

anonymous
(17.03.25 15:38:51 MSK)

Ответ на: комментарий от max_lapshin 17.03.25 13:26:57 MSK

Я говорю про дефолт.

А что ты хочешь видеть в дефолте про что вообще происходит и что делать? Типа ахтунг, ахтунг, приложение сожрало всё память, срочно докиньте пару плашек?

ya-betmen ★★★★★
(17.03.25 18:57:06 MSK)

Ответ на: комментарий от borisych 17.03.25 15:33:19 MSK

Ну все правильно, приходит алерт: «Шеф, на диске осталось меньше 20% места, посмотри». С этим графана отлично справляется. Ну и при желании можно ошибки слать и видеть все, постфактум, но тем не менее сразу как проблема появилась.

masa ★★
(17.03.25 19:02:39 MSK)

У нас простые алерты, типа: «Задача xxx не выполнилась» или «Сервис xxx не запущен», «Очередь кафки xxx забита» и тд. при этому у алертов есть параметр - хост, где конкретно это что-то сломалось.

Что происходит детально (логи, трейсбеки) и что делать в алертах не написано и не должно я думаю.

masa ★★
(17.03.25 19:10:24 MSK)

Ответ на: комментарий от borisych 17.03.25 15:33:19 MSK

т.е. по факту я хочу от девелоперского инструмента для постфактум анализа работы по ИТИЛю?

max_lapshin ★★★★★
(17.03.25 21:00:34 MSK) автор топика

Ну вообще, как я вижу, то вот этот подход с метриками он не совсем для этого. То есть да, по ним можно увидеть надвигающуюся проблему, или проблему в самом разгаре, в общем виде, и так далее, но для прямо алертов и всего такого надо включать event-based мониторинг, отдельный, это условно говоря, обобщение концепции «логов», что-то типа Sentry и так далее. Ну я когда-то в подобной компании также работал, AlertLogic называлась. Вот там все было именно про евенты какие-то.

lovesan ★★★
(18.03.25 17:51:35 MSK)

Ответ на: комментарий от max_lapshin 17.03.25 13:26:57 MSK

Я говорю про дефолт.

Там нет дефолта. Графана - визуализатор, алертменеджер - инструмент отправки уведомлений. То, что алерт описан плохо - это не проблема визуализатора, это ваша проблема, потому что вы взяли конфиг непонятного васяна из интернетов и почему-то он вам не подошел.

Настраивайте сами со своими параметрами. А то дефолтный алерт node_exporter на 70% юз оперативки актуален, когда ее гига четыре. А когда у сервака 1тб оперативки, нет смысла орать, если осталось 300гб.

l0stparadise ★★★★★
(18.03.25 20:22:29 MSK)

Ответ на: комментарий от lovesan 18.03.25 17:51:35 MSK

Ну вообще, как я вижу, то вот этот подход с метриками он не совсем для этого. То есть да, по ним можно увидеть надвигающуюся проблему, или проблему в самом разгаре, в общем виде, и так далее, но для прямо алертов и всего такого надо включать event-based мониторинг, отдельный, это условно говоря, обобщение концепции «логов», что-то типа Sentry и так далее. Ну я когда-то в подобной компании также работал, AlertLogic называлась.

Наоборот - логи и трейсы нужны для пост-фактум расследования причин проблемы, а алерты могут быть только по метрикам. Потому что:

На любой эвент можно сделать метрику, но не наоборот
Алерты бывают не только по фронту, но и по уровню
Алерты должны гибко настраиваться в том числе порогами и оконной агрегацией (срабатывать если минимальное значение за 1 час больше X), это никак не ложится на эвенты.
На метриках проще искать аномалии.

Ну т.е. можно конечно же из эвентов сделать метрики и по ним делать алерты, но всё же метрики для алертов обязательны.

anonymous
(18.03.25 21:13:35 MSK)

Ответ на: комментарий от max_lapshin 17.03.25 21:00:34 MSK

По факту, ты хочешь, чтобы дефолт тебе подходил идеально. Такое бывает только если ты сам пишешь ПО и задаёшь его дефолты. В ином случае дефолт – это отправная точка, а не то, что используется напрямую без доработок.

zimniy ★
(20.03.25 10:24:02 MSK)

←	defer в C быть!

Development

Задать флаги и опции gcc «глобально» в обход Cmake и прочих

→

Похожие темы