История изменений
Исправление alpha, (текущая версия) :
1. Кластеризация Prometheus
Prometheus - это stateless-система, кластеризация ему в принципе не нужна. Для надежности их просто поднимают пять ровно одинаковых, работающих параллельно и независимо друг от друга.
Состояние алертов хранит alert-manager, он и разбирается с тем чтобы на одно и тоже событие пять раз не слать уведомления.
2. Насколько удобно добавлять хосты в автоматическом режиме?
Есть из коробки service discovery на базе любого провайдера - consul, kubernetes-api,..
Если статические хосты хочешь обновлять - то выкатываешь просто обновленный конфиг и готово.
3. Готова ли эта связка для 4к+ хостов?
Готова для всего.
В случае prometheus может иметь смысл «вертикальное» масштабирование, то есть выстраивание инстансов в иерархию по типу дерева. Каждый prometheus нижнего уровня читает метрики со своих N машин. Prometheus второго уровня читает уже агрегированные метрики с инстансов первого уровня, третий уровень со второго и т.п.
Вообще Prometheus это идеальная система, простая в обращении и изначально задизайненная под большие масштабы и динамические окружения.
Исходная версия alpha, :
Prometheus - это stateless-система, кластеризация ему в принципе не нужна. Для надежности их просто поднимают пять ровно одинаковых, работающих параллельно и независимо друг от друга.
Состояние алертов хранит alert-manager, он и разбирается с тем чтобы на одно и тоже событие пять раз не слать уведомления.
В случае prometheus может иметь смысл «вертикальное» масштабирование, то есть выстраивание инстансов в иерархию по типу дерева. Каждый prometheus нижнего уровня читает метрики со своих N машин. Prometheus второго уровня читает уже агрегированные метрики с инстансов первого уровня, третий уровень со второго и т.п.