История изменений

Исправление alpha, 04.09.18 17:57 (текущая версия) :

1. Кластеризация Prometheus

Prometheus - это stateless-система, кластеризация ему в принципе не нужна. Для надежности их просто поднимают пять ровно одинаковых, работающих параллельно и независимо друг от друга.

Состояние алертов хранит alert-manager, он и разбирается с тем чтобы на одно и тоже событие пять раз не слать уведомления.

2. Насколько удобно добавлять хосты в автоматическом режиме?

Есть из коробки service discovery на базе любого провайдера - consul, kubernetes-api,..

Если статические хосты хочешь обновлять - то выкатываешь просто обновленный конфиг и готово.

3. Готова ли эта связка для 4к+ хостов?

Готова для всего.

В случае prometheus может иметь смысл «вертикальное» масштабирование, то есть выстраивание инстансов в иерархию по типу дерева. Каждый prometheus нижнего уровня читает метрики со своих N машин. Prometheus второго уровня читает уже агрегированные метрики с инстансов первого уровня, третий уровень со второго и т.п.

Вообще Prometheus это идеальная система, простая в обращении и изначально задизайненная под большие масштабы и динамические окружения.

Исходная версия alpha, 04.09.18 17:53: