LINUX.ORG.RU

История изменений

Исправление intelfx, (текущая версия) :

В первую очередь, алерты: что-то упало, что-то недоступно и так далее, желательно на мыло и в Slack.

Prometheus + Alertmanager

Во вторую, желательно мониторить нагрузку, в идеале включая загруженность видеокарты.

Netdata + плагины, экспорт в Prometheus (сам по себе Prometheus ничего не делает, ему нужен агент)

Не обязательно, но будет классно, если система ещё сможет что-нибудь делать с логами (есть ELK, но, могло бы оказаться полезным иметь последний кусочек лога в мониторинге при трагедии).

Это уже только самому костылять.

Исправление intelfx, :

В первую очередь, алерты: что-то упало, что-то недоступно и так далее, желательно на мыло и в Slack.

Prometheus + Alertmanager

Во вторую, желательно мониторить нагрузку, в идеале включая загруженность видеокарты.

Netdata + плагины в качестве node agent с экспортом в Prometheus

Не обязательно, но будет классно, если система ещё сможет что-нибудь делать с логами (есть ELK, но, могло бы оказаться полезным иметь последний кусочек лога в мониторинге при трагедии).

Это уже только самому костылять.

Исходная версия intelfx, :

Netdata + Prometheus + Alertmanager