LINUX.ORG.RU
ФорумAdmin

мониторинг для сервера


0

0

подскажите софтинку. надо что бы крутилась на серваке и отслеживала десяток-другой параметров типа загрузки проца, места на дисках, очереди, температуры, всякие смарт и упс, и тому подобное. при выхождении за пределы - писала бы в сислог/слала почту. опционально - хранила где-то перфоманс данные для постоения графиков.

глобальные типа нагиоса и т.п. не нужны, нужно что-то синглхостное, легкое и простое. в принципе понравился collectd - грамотно собирает перфоманс для всего, что найдет, но там нет алертов вообще.

Ответ на: комментарий от easy_john

подскажите софтинку. надо что бы крутилась на серваке и отслеживала десяток-другой параметров типа загрузки проца, места на дисках, очереди, температуры, всякие смарт и упс, и тому подобное. при выхождении за пределы - писала бы в сислог/слала почту. опционально - хранила где-то перфоманс данные для постоения графиков.

я так понял, что ты не понял вопроса, да?

Почему не понял?

загрузки проца, места на дисках, трафик на интерфейсах - snmpd графики mrtg температуры - lmsensors всякие смарт и упс - nut

smart параметры жесткого диска smartd.

Или ты хочешь, чтобы все сразу и одной софтиной?

KsI__
()
Ответ на: комментарий от power

> nagios?

я просил не нагиос. я знаю и использую большие системы мониторинга, в данном случае это все не нужно. надо что-то небольшое.

easy_john
() автор топика
Ответ на: комментарий от grad

> cacti

хм. он умеет работать без веба вообще?

easy_john
() автор топика
Ответ на: комментарий от Giz0

> monit

не подходит, к нему нельзя прицепить внешние проверки. только то, что есть внутри, проверка наличия сервисов и изменения файлов.

как например мне им сравнить получаемые скриптом температуры проца или еще что-то подобное?

easy_john
() автор топика
Ответ на: комментарий от easy_john

> Почему не понял? Или ты хочешь, чтобы все сразу и одной софтиной?

потому, что ты пишешь как эти данные получить, а мне надо - чем их обработать. я и сам знаю чем мне снять параметры с устройств. теперь мне надо все эти 20-30 параметров регулярно чекать и при выходе за заранее оговоренные рамки - генерировать алерт желательно нужного уровня.

я хочу софтину, которая адекватно следила за параметрами всунутыми извне. это как-раз мониторинг называется.

причем если сравнить входящий параметр и оценить его степеь отклонения и сгенерировать алерт нужного уровня (варнинг/критикал/емерженси) от нормы можно скриптом из 10 строк, то дальнейшая генерация алертов так, что бы не завалить админа 10000 писем за ночь, не генерить алерты низкого уровня, если есть более высокие, и т.п. уже не пишется просто так быстро.

easy_john
() автор топика
Ответ на: комментарий от MiracleMan

> Так в чём проблема? Используй только для локального мониторинга..

попробую. просто хочется максимально простого. еще не успел понять, в него произвольные данные можно засовывать и анализировать?

easy_john
() автор топика
Ответ на: комментарий от anonymous

> cacti. Работает почти год без проблем. Сбор статистики настроен по snmp

поднимать сервис snmp на локальном хосте что бы самому с себя получать статистику - достаточно глупо и монстрообразно, не правда ли?

easy_john
() автор топика
Ответ на: комментарий от easy_john

>потому, что ты пишешь как эти данные получить, а мне надо - чем их обработать. я и сам знаю чем мне снять параметры с устройств. теперь мне надо все эти 20-30 параметров регулярно чекать и при выходе за заранее оговоренные рамки - генерировать алерт желательно нужного уровня.

Ты просто какой-то упрямый динозавр.
Данные у тебя уже есть, а сравнить их с пороговыми значениями тебе западло. if ... then это что высший пилотаж в программировании? или алерт кинуть из скрипта большая проблема.

Именно потому, что эта шняга пишется за 10 минут, ты и не найдешь готового проекта (нет здесь материала на проект)

sdio ★★★★★
()
Ответ на: комментарий от Cy6erBr4in

> Ага, так же глупо и монструозно, как например: X сервер и X клиент на одном хосте...

лишний сервис - это всегда лишний сервис. если я могу получить loadavg просто сделав cat /proc... нафига мне делать это через ж.. через snmp????

для сервера(ов) ставить лишний сервис, который еще надо защищать (чрутить?), мониторить что бы работал и т.п. - это ненужное усложнение.

easy_john
() автор топика
Ответ на: комментарий от sdio

>Ты просто какой-то упрямый динозавр.

разумный минималист.

> Данные у тебя уже есть, а сравнить их с пороговыми значениями тебе западло. if ... then это что высший пилотаж в программировании? или алерт кинуть из скрипта большая проблема.

не проблема. а как на счет грамотной обработки этих алертов по уровням, грамотной рассылки алертов нужной периодичностью, flap detection наконец? это все то же примитивно пишется за 10 минут?

easy_john
() автор топика
Ответ на: комментарий от easy_john

Ты свой первый пост перечитай внимательно,

>при выхождении за пределы - писала бы в сислог/слала почту. опционально - хранила где-то перфоманс данные для постоения графиков.

что-то у тебя запросы растут, а?

>грамотной обработки этих алертов по уровням, грамотной рассылки алертов нужной периодичностью, flap detection наконец?

Определись с ТЗ для начала.

sdio ★★★★★
()
Ответ на: комментарий от sdio

> что-то у тебя запросы растут, а?

>грамотной обработки этих алертов по уровням, грамотной рассылки алертов нужной периодичностью, flap detection наконец?

> Определись с ТЗ для начала.

наоборот, уменьшаются! так, выкидываем нафиг графики и проч. навароты. убираем ненужные локалхосту сервисы типа snmp.

оставляем только:

1. сбор данных с любого источника (готовые или самописные скрипты и подобное).

2. анализ.

2а. желательно с разбивкой по уроням (normal, warning, critical)

2б. опционально - желательно продвинутый, не просто M>N, а например среднее M за последние T минут больше N.

3. грамотное оповещение о событии:

3a. не больше чем X раз про одно и то же, повторы раз в Z минут, если все еще авария.

3b. игнорирование warning оповещений, если уже есть critical.

3c. опционально - flap detection. (если тригер начал "мерцать" - сообщить и на какое-то время игнорировать его изменения)

easy_john
() автор топика
Ответ на: комментарий от easy_john

постепенно прихожу к мысли, что нагиос, если у него оторвать веб и еще половину, и прикрурить только локалхостную проверку подойдет для таких нужд.

пожалуй у него наиболее удовлетворяющая моим запросам третья часть.

странно все это...

easy_john
() автор топика
Ответ на: комментарий от easy_john

>> что-то у тебя запросы растут, а?

> наоборот, уменьшаются!

Ну так напиши свою приблуду. Пишется на коленке за 20 минут.

grad
()
Ответ на: комментарий от grad

> Ну так напиши свою приблуду. Пишется на коленке за 20 минут.

я готов заказать такую приблуду за деньги, если ты готов ответить за свои слова.

оплачу даже день-два программирования (сколько ты получешь в день? 1000-2000р?)

easy_john
() автор топика
Ответ на: комментарий от easy_john

> я готов заказать такую приблуду за деньги

Нет, спасибо, советую самому освоить shell. Если ты знаешь, какими командами проверить 
"загрузку проца, место на дисках, очереди, температуры, всякие смарт и упс", считай,
что большая работы сделана.

Вот тебе простейший примерчик:

#!/bin/sh
AVAIL=`df -m | grep sda1 | awk '{ print $4 }'`
if [ $AVAIL -lt 100 ]
then
     mail -s "Warning! Low disk space: ${AVAIL}MB available." \
vasia.pupkin@example.com < /tmp/warn > /dev/null
fi
exit 0;

Аналогично, можно дополнить этот скрипт проверкой необходимых параметров и выполнять
его по крону через определённое время.
Если не хочешь, чтобы он флудил сообщениями, добавь в скрипт, чтобы он писал
во временный файл число отправленных сообщений и проверял его
при следующем запуске, прекращая отсылку при превышении лимита.

grad
()
Ответ на: комментарий от grad

> Нет, спасибо, советую самому освоить shell.

то есть видимо в нужном уровне данная задача таки не решается за 20 минут, да?

шел я знаю достаточно. описанные тобой действия подходят для пионерстроя. делать на шеле все проверки достаточно геморойно и глупо.

начиная с того, что нужны таймауты на опрос ибо опрашивающий процесс может занять много времени или повиснуть а снимать остальные метрики при этом надо. ну и оповещения это не просто так "проверить число отправленных сообщений". как ты в такой реализации flap detection делать будешь?

я писал подобные скрипты и знаю, сколько времени уходит на написание и отладку. именно по этому я ищу максимально готовое ршение.

easy_john
() автор топика
Ответ на: комментарий от easy_john

тебе что, не судьба написать свой сервис? данные можно хранить в логах/базах/етс

такие вопросы я решаю именно написание собственных сервисов

MihaelSA
()
Ответ на: комментарий от easy_john

> описанные тобой действия подходят для пионерстроя .. я ищу максимально готовое ршение.

Да ты что? Ну-ну, ищи готовое решение.

Правильно сказал sdio: "Ты просто какой-то упрямый динозавр."

grad
()
Ответ на: комментарий от easy_john

>шел я знаю достаточно. описанные тобой действия подходят для пионерстроя. делать на шеле все проверки достаточно геморойно и глупо.

Судя по всему ты о возможностях шелла ни хрена даже не слышал - пиСАКА ...

anonymous
()
Ответ на: комментарий от sdio

> http://freshmeat.net/projects/alertmanager/

это зачатки, вероятно в будующем неплохой системы.

по алертам - только переход за грань, нет уровней.

в туду нереализованные, но нужные мне вещи: - Timeout for command execution.- The ability to run multiple alerts at once.

нет ограничений на отправку алертов.

easy_john
() автор топика
Ответ на: комментарий от MihaelSA

> тебе что, не судьба написать свой сервис? данные можно хранить в логах/базах/етс

> такие вопросы я решаю именно написание собственных сервисов

я не хочу тратить рабочее время на решение задачи, которая возможно уже решена многократно другими.

если бы сервис _нужного качества_ писался быстро, я бы так и сделал.

easy_john
() автор топика
Ответ на: комментарий от grad

>Да ты что? Ну-ну, ищи готовое решение.

> Правильно сказал sdio: "Ты просто какой-то упрямый динозавр."

я уже отметил, что одно готовое решение есть - нагиос, с отключенным всем лишним, в качетстве только локального монитора.

сейчас я смотрю, есть ли что-то еще аналогичное.

easy_john
() автор топика
Ответ на: комментарий от anonymous

> Судя по всему ты о возможностях шелла ни хрена даже не слышал - пиСАКА ...

пшол нах.

easy_john
() автор топика
Ответ на: комментарий от easy_john

zabbix-server
Настроишь чего угодно - а веб туда ставить не обязятельно

kilolife ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.