История изменений
Исправление intelfx, (текущая версия) :
В первую очередь, алерты: что-то упало, что-то недоступно и так далее, желательно на мыло и в Slack.
Prometheus + Alertmanager
Во вторую, желательно мониторить нагрузку, в идеале включая загруженность видеокарты.
Netdata + плагины, экспорт в Prometheus (сам по себе Prometheus ничего не делает, ему нужен агент)
Не обязательно, но будет классно, если система ещё сможет что-нибудь делать с логами (есть ELK, но, могло бы оказаться полезным иметь последний кусочек лога в мониторинге при трагедии).
Это уже только самому костылять.
Исправление intelfx, :
В первую очередь, алерты: что-то упало, что-то недоступно и так далее, желательно на мыло и в Slack.
Prometheus + Alertmanager
Во вторую, желательно мониторить нагрузку, в идеале включая загруженность видеокарты.
Netdata + плагины в качестве node agent с экспортом в Prometheus
Не обязательно, но будет классно, если система ещё сможет что-нибудь делать с логами (есть ELK, но, могло бы оказаться полезным иметь последний кусочек лога в мониторинге при трагедии).
Это уже только самому костылять.
Исходная версия intelfx, :
Netdata + Prometheus + Alertmanager