мониторинг для сервера

snmpd + mrtg, lmsensors, nut, smartd.

KsI__
(27.12.07 18:00:43 MSK)

Используем mon (http://www.us.kernel.org/pub/software/admin/mon). Заточена как-раз для мониторинга и отсыли алертов. Собственные возможности не большие, но легко расширяется.

gdv2
(27.12.07 18:24:05 MSK)

Ответ на: комментарий от KsI__ 27.12.07 18:00:43 MSK

> snmpd + mrtg, lmsensors, nut, smartd.

я так понял, что ты не понял вопроса, да?

easy_john
(27.12.07 19:16:45 MSK) автор топика

Ответ на: комментарий от gdv2 27.12.07 18:24:05 MSK

> Используем mon

спасибо, гляну.

easy_john
(27.12.07 19:17:19 MSK) автор топика

Ссылка

Ответ на: комментарий от gdv2 27.12.07 18:24:05 MSK

> Используем mon

блин, он опять заточен на удаленные хосты. а мне надо только локалхост.

easy_john
(27.12.07 19:25:36 MSK) автор топика

Ответ на: комментарий от easy_john 27.12.07 19:25:36 MSK

monit

Giz0 ★
(27.12.07 20:38:24 MSK)

nagios?

~~power~~ ★
(27.12.07 22:28:57 MSK)

Ответ на: комментарий от easy_john 27.12.07 19:25:36 MSK

Так в чём проблема? Используй только для локального мониторинга..

MiracleMan ★★★★★
(28.12.07 00:17:14 MSK)

cacti

grad
(28.12.07 00:22:57 MSK)

Ответ на: комментарий от easy_john 27.12.07 19:16:45 MSK

подскажите софтинку. надо что бы крутилась на серваке и отслеживала десяток-другой параметров типа загрузки проца, места на дисках, очереди, температуры, всякие смарт и упс, и тому подобное. при выхождении за пределы - писала бы в сислог/слала почту. опционально - хранила где-то перфоманс данные для постоения графиков.

я так понял, что ты не понял вопроса, да?

Почему не понял?

загрузки проца, места на дисках, трафик на интерфейсах - snmpd графики mrtg температуры - lmsensors всякие смарт и упс - nut

smart параметры жесткого диска smartd.

Или ты хочешь, чтобы все сразу и одной софтиной?

KsI__
(28.12.07 01:17:59 MSK)

Ссылка

cacti. Работает почти год без проблем. Сбор статистики настроен по snmp

anonymous
(28.12.07 07:01:19 MSK)

Ответ на: комментарий от anonymous 28.12.07 07:01:19 MSK

cacti +1

anonymous
(28.12.07 08:07:48 MSK)

Ссылка

Ответ на: комментарий от power 27.12.07 22:28:57 MSK

> nagios?

я просил не нагиос. я знаю и использую большие системы мониторинга, в данном случае это все не нужно. надо что-то небольшое.

easy_john
(28.12.07 10:55:53 MSK) автор топика

Ссылка

Ответ на: комментарий от grad 28.12.07 00:22:57 MSK

> cacti

хм. он умеет работать без веба вообще?

easy_john
(28.12.07 11:19:34 MSK) автор топика

Ссылка

Ответ на: комментарий от Giz0 27.12.07 20:38:24 MSK

> monit

не подходит, к нему нельзя прицепить внешние проверки. только то, что есть внутри, проверка наличия сервисов и изменения файлов.

как например мне им сравнить получаемые скриптом температуры проца или еще что-то подобное?

easy_john
(28.12.07 11:22:32 MSK) автор топика

Ответ на: комментарий от easy_john 28.12.07 11:22:32 MSK

какая-то фигня с форумом. мелкие ответы вставляет, а большой уже 5-ый раз не дает.

easy_john
(28.12.07 11:27:29 MSK) автор топика

Ответ на: комментарий от easy_john 28.12.07 11:27:29 MSK

> Почему не понял? Или ты хочешь, чтобы все сразу и одной софтиной?

потому, что ты пишешь как эти данные получить, а мне надо - чем их обработать. я и сам знаю чем мне снять параметры с устройств. теперь мне надо все эти 20-30 параметров регулярно чекать и при выходе за заранее оговоренные рамки - генерировать алерт желательно нужного уровня.

я хочу софтину, которая адекватно следила за параметрами всунутыми извне. это как-раз мониторинг называется.

причем если сравнить входящий параметр и оценить его степеь отклонения и сгенерировать алерт нужного уровня (варнинг/критикал/емерженси) от нормы можно скриптом из 10 строк, то дальнейшая генерация алертов так, что бы не завалить админа 10000 писем за ночь, не генерить алерты низкого уровня, если есть более высокие, и т.п. уже не пишется просто так быстро.

easy_john
(28.12.07 11:32:34 MSK) автор топика

Ответ на: комментарий от MiracleMan 28.12.07 00:17:14 MSK

> Так в чём проблема? Используй только для локального мониторинга..

попробую. просто хочется максимально простого. еще не успел понять, в него произвольные данные можно засовывать и анализировать?

easy_john
(28.12.07 11:35:15 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 28.12.07 07:01:19 MSK

> cacti. Работает почти год без проблем. Сбор статистики настроен по snmp

поднимать сервис snmp на локальном хосте что бы самому с себя получать статистику - достаточно глупо и монстрообразно, не правда ли?

easy_john
(28.12.07 11:36:50 MSK) автор топика

Ответ на: комментарий от easy_john 28.12.07 11:36:50 MSK

Ага, так же глупо и монструозно, как например: X сервер и X клиент на одном хосте...

Cy6erBr4in ★★★
(28.12.07 12:00:10 MSK)

Ответ на: комментарий от easy_john 28.12.07 11:32:34 MSK

>потому, что ты пишешь как эти данные получить, а мне надо - чем их обработать. я и сам знаю чем мне снять параметры с устройств. теперь мне надо все эти 20-30 параметров регулярно чекать и при выходе за заранее оговоренные рамки - генерировать алерт желательно нужного уровня.

Ты просто какой-то упрямый динозавр.
Данные у тебя уже есть, а сравнить их с пороговыми значениями тебе западло. if ... then это что высший пилотаж в программировании? или алерт кинуть из скрипта большая проблема.

Именно потому, что эта шняга пишется за 10 минут, ты и не найдешь готового проекта (нет здесь материала на проект)

~~sdio~~ ★★★★★
(28.12.07 12:08:21 MSK)

Ответ на: комментарий от Cy6erBr4in 28.12.07 12:00:10 MSK

> Ага, так же глупо и монструозно, как например: X сервер и X клиент на одном хосте...

лишний сервис - это всегда лишний сервис. если я могу получить loadavg просто сделав cat /proc... нафига мне делать это через ж.. через snmp????

для сервера(ов) ставить лишний сервис, который еще надо защищать (чрутить?), мониторить что бы работал и т.п. - это ненужное усложнение.

easy_john
(28.12.07 12:15:48 MSK) автор топика

Ссылка

Ответ на: комментарий от sdio 28.12.07 12:08:21 MSK

>Ты просто какой-то упрямый динозавр.

разумный минималист.

> Данные у тебя уже есть, а сравнить их с пороговыми значениями тебе западло. if ... then это что высший пилотаж в программировании? или алерт кинуть из скрипта большая проблема.

не проблема. а как на счет грамотной обработки этих алертов по уровням, грамотной рассылки алертов нужной периодичностью, flap detection наконец? это все то же примитивно пишется за 10 минут?

easy_john
(28.12.07 12:18:07 MSK) автор топика

Ответ на: комментарий от easy_john 28.12.07 12:18:07 MSK

Ты свой первый пост перечитай внимательно,

>при выхождении за пределы - писала бы в сислог/слала почту. опционально - хранила где-то перфоманс данные для постоения графиков.

что-то у тебя запросы растут, а?

>грамотной обработки этих алертов по уровням, грамотной рассылки алертов нужной периодичностью, flap detection наконец?

Определись с ТЗ для начала.

~~sdio~~ ★★★★★
(28.12.07 12:26:15 MSK)

Ответ на: комментарий от sdio 28.12.07 12:26:15 MSK

> что-то у тебя запросы растут, а?

>грамотной обработки этих алертов по уровням, грамотной рассылки алертов нужной периодичностью, flap detection наконец?

> Определись с ТЗ для начала.

наоборот, уменьшаются! так, выкидываем нафиг графики и проч. навароты. убираем ненужные локалхосту сервисы типа snmp.

оставляем только:

1. сбор данных с любого источника (готовые или самописные скрипты и подобное).

2. анализ.

2а. желательно с разбивкой по уроням (normal, warning, critical)

2б. опционально - желательно продвинутый, не просто M>N, а например среднее M за последние T минут больше N.

3. грамотное оповещение о событии:

3a. не больше чем X раз про одно и то же, повторы раз в Z минут, если все еще авария.

3b. игнорирование warning оповещений, если уже есть critical.

3c. опционально - flap detection. (если тригер начал "мерцать" - сообщить и на какое-то время игнорировать его изменения)

easy_john
(28.12.07 12:35:38 MSK) автор топика

Ответ на: комментарий от easy_john 28.12.07 12:35:38 MSK

постепенно прихожу к мысли, что нагиос, если у него оторвать веб и еще половину, и прикрурить только локалхостную проверку подойдет для таких нужд.

пожалуй у него наиболее удовлетворяющая моим запросам третья часть.

странно все это...

easy_john
(28.12.07 12:40:49 MSK) автор топика

Ссылка

Ответ на: комментарий от easy_john 28.12.07 12:35:38 MSK

>> что-то у тебя запросы растут, а?

> наоборот, уменьшаются!

Ну так напиши свою приблуду. Пишется на коленке за 20 минут.

grad
(28.12.07 12:45:31 MSK)

Ответ на: комментарий от grad 28.12.07 12:45:31 MSK

> Ну так напиши свою приблуду. Пишется на коленке за 20 минут.

я готов заказать такую приблуду за деньги, если ты готов ответить за свои слова.

оплачу даже день-два программирования (сколько ты получешь в день? 1000-2000р?)

easy_john
(28.12.07 12:58:57 MSK) автор топика

Ответ на: комментарий от easy_john 28.12.07 12:58:57 MSK

> я готов заказать такую приблуду за деньги

Нет, спасибо, советую самому освоить shell. Если ты знаешь, какими командами проверить 
"загрузку проца, место на дисках, очереди, температуры, всякие смарт и упс", считай,
что большая работы сделана.

Вот тебе простейший примерчик:

#!/bin/sh
AVAIL=`df -m | grep sda1 | awk '{ print $4 }'`
if [ $AVAIL -lt 100 ]
then
     mail -s "Warning! Low disk space: ${AVAIL}MB available." \
vasia.pupkin@example.com < /tmp/warn > /dev/null
fi
exit 0;

Аналогично, можно дополнить этот скрипт проверкой необходимых параметров и выполнять
его по крону через определённое время.
Если не хочешь, чтобы он флудил сообщениями, добавь в скрипт, чтобы он писал
во временный файл число отправленных сообщений и проверял его
при следующем запуске, прекращая отсылку при превышении лимита.

grad
(28.12.07 17:15:23 MSK)

Ответ на: комментарий от grad 28.12.07 17:15:23 MSK

> Нет, спасибо, советую самому освоить shell.

то есть видимо в нужном уровне данная задача таки не решается за 20 минут, да?

шел я знаю достаточно. описанные тобой действия подходят для пионерстроя. делать на шеле все проверки достаточно геморойно и глупо.

начиная с того, что нужны таймауты на опрос ибо опрашивающий процесс может занять много времени или повиснуть а снимать остальные метрики при этом надо. ну и оповещения это не просто так "проверить число отправленных сообщений". как ты в такой реализации flap detection делать будешь?

я писал подобные скрипты и знаю, сколько времени уходит на написание и отладку. именно по этому я ищу максимально готовое ршение.

easy_john
(28.12.07 18:58:27 MSK) автор топика

Ответ на: комментарий от easy_john 28.12.07 18:58:27 MSK

тебе что, не судьба написать свой сервис? данные можно хранить в логах/базах/етс

такие вопросы я решаю именно написание собственных сервисов

MihaelSA
(28.12.07 19:21:51 MSK)

Ответ на: комментарий от easy_john 28.12.07 18:58:27 MSK

> описанные тобой действия подходят для пионерстроя .. я ищу максимально готовое ршение.

Да ты что? Ну-ну, ищи готовое решение.

Правильно сказал sdio: "Ты просто какой-то упрямый динозавр."

grad
(28.12.07 21:53:44 MSK)

Ответ на: комментарий от easy_john 28.12.07 18:58:27 MSK

http://freshmeat.net/projects/alertmanager/

~~sdio~~ ★★★★★
(28.12.07 23:21:03 MSK)

Ответ на: комментарий от easy_john 28.12.07 18:58:27 MSK

>шел я знаю достаточно. описанные тобой действия подходят для пионерстроя. делать на шеле все проверки достаточно геморойно и глупо.

Судя по всему ты о возможностях шелла ни хрена даже не слышал - пиСАКА ...

anonymous
(28.12.07 23:59:25 MSK)

Ответ на: комментарий от sdio 28.12.07 23:21:03 MSK

> http://freshmeat.net/projects/alertmanager/

это зачатки, вероятно в будующем неплохой системы.

по алертам - только переход за грань, нет уровней.

в туду нереализованные, но нужные мне вещи: - Timeout for command execution.- The ability to run multiple alerts at once.

нет ограничений на отправку алертов.

easy_john
(29.12.07 11:41:03 MSK) автор топика

Ссылка

Ответ на: комментарий от MihaelSA 28.12.07 19:21:51 MSK

> тебе что, не судьба написать свой сервис? данные можно хранить в логах/базах/етс

> такие вопросы я решаю именно написание собственных сервисов

я не хочу тратить рабочее время на решение задачи, которая возможно уже решена многократно другими.

если бы сервис _нужного качества_ писался быстро, я бы так и сделал.

easy_john
(29.12.07 11:43:09 MSK) автор топика

Ссылка

Ответ на: комментарий от grad 28.12.07 21:53:44 MSK

>Да ты что? Ну-ну, ищи готовое решение.

> Правильно сказал sdio: "Ты просто какой-то упрямый динозавр."

я уже отметил, что одно готовое решение есть - нагиос, с отключенным всем лишним, в качетстве только локального монитора.

сейчас я смотрю, есть ли что-то еще аналогичное.

easy_john
(29.12.07 11:44:29 MSK) автор топика

Ответ на: комментарий от anonymous 28.12.07 23:59:25 MSK

> Судя по всему ты о возможностях шелла ни хрена даже не слышал - пиСАКА ...

пшол нах.

easy_john
(29.12.07 11:45:05 MSK) автор топика

Ссылка

Ответ на: комментарий от easy_john 29.12.07 11:44:29 MSK

zabbix-server
Настроишь чего угодно - а веб туда ставить не обязятельно

kilolife ★★★★★
(31.12.07 17:36:36 MSK)

Ссылка

Похожие темы