LINUX.ORG.RU

Всмысле за железом следить надо - рейды, температура. На форуме лежат темплейты и скрипты собирающие инфу со стандартных утилит hp, типа hpaucli. Но все это счастье под винду со скриптами на vbs. Под линукс в гугле - глухо, что удивляет.

owlmind
() автор топика

Под линукс ищи пакеты hp-health и hp-snmp-agents, темплейт собираешь сам в зависимости от того, что будет отдавать по snmp сервер. Скриптом для автоматической сборки темплейтов snmp-девайсов могу поделиться.

Рейды мониторятся cciss_vol_status.

riki ★★★★
()
Ответ на: комментарий от riki

От скрипта конечно не откажусь.

Хотя через snmp я в принципе уже сделал, но мне оно не очень нравится. Хотелось бы через заббикс-агента что-то подобное https://www.zabbix.com/forum/showthread.php?t=27057.
Вот думал может есть у кого готовое, было бы замечательно.

owlmind
() автор топика

Я мониторю независимо от ОС через iLO/IPMI-over-LAN. Написал скрипт для заббикса, который запускает ipmi-sensors и опрашивает сервера. Так, разве что, рейд нельзя опросить.

blind_oracle ★★★★★
()
Ответ на: комментарий от blind_oracle

Так, разве что, рейд нельзя опросить.

Можно подумать, кроме него ещё что-то представляет интерес =)

af5 ★★★★★
()
Ответ на: комментарий от af5

Ну здрасьте, температуры, кулеры, состояния блоков питания, VRM и т.п.

Вот, к примеру, старый пролиант что отдает по IPMI:

1,UID Light,OEM Reserved,N/A,N/A,'OEM Event = 0000h'
2,Int. Health LED,OEM Reserved,N/A,N/A,'OEM Event = 0000h'
3,VRD (CPU1),Power Unit,N/A,N/A,'Device Inserted/Device Present'
4,Fan 1,Fan,39.98,%,'transition to Running'
5,Fan 2,Fan,39.98,%,'transition to Running'
6,Fan 3,Fan,39.98,%,'transition to Running'
7,Fan 4,Fan,39.98,%,'transition to Running'
8,Fans,Fan,N/A,N/A,'Fully Redundant'
10,Temp 1,Temperature,36.00,C,'OK'
11,Temp 2,Temperature,28.00,C,'OK'
12,Temp 3,Temperature,28.00,C,'OK'
13,Temp 4,Temperature,29.00,C,'OK'
14,Power Supply 1,Power Supply,0.00,%,'Presence detected'
15,Power Supply 2,Power Supply,0.00,%,'Presence detected'
16,Power Supplies,Power Supply,N/A,N/A,'Fully Redundant'

Вот относительно новые платформы от супермикры:

2,CPU1 Temp,OEM Reserved,N/A,N/A,'OEM Event = 0000h'
3,CPU2 Temp,OEM Reserved,N/A,N/A,'OEM Event = 0000h'
4,System Temp,Temperature,30.00,C,'OK'
5,CPU1 Vcore,Voltage,1.10,V,'OK'
6,CPU2 Vcore,Voltage,1.07,V,'OK'
7,CPU1 VTT,Voltage,1.12,V,'OK'
8,CPU2 VTT,Voltage,1.16,V,'OK'
9,CPU1 DIMM,Voltage,1.51,V,'OK'
10,CPU2 DIMM,Voltage,1.51,V,'OK'
11,+1.5V,Voltage,1.51,V,'OK'
12,+1.8V,Voltage,1.84,V,'OK'
13,+5V,Voltage,4.96,V,'OK'
14,+12V,Voltage,12.08,V,'OK'
15,+1.1V,Voltage,1.10,V,'OK'
16,+3.3V,Voltage,3.29,V,'OK'
17,+3.3VSB,Voltage,3.26,V,'OK'
18,VBAT,Voltage,3.22,V,'OK'
19,Fan1,Fan,7020.00,RPM,'OK'
20,Fan2,Fan,7020.00,RPM,'OK'
21,Fan3,Fan,7020.00,RPM,'OK'
22,Fan4,Fan,7020.00,RPM,'OK'
23,Fan5,Fan,N/A,RPM,N/A
24,Fan6,Fan,N/A,RPM,N/A
25,Fan7,Fan,N/A,RPM,N/A
26,Fan8,Fan,N/A,RPM,N/A
27,Intrusion,Physical Security,N/A,N/A,'OK'
28,PS Status,Power Supply,N/A,N/A,'OK'
29,P1-DIMM1A Temp,Temperature,34.00,C,'OK'
30,P1-DIMM1B Temp,Temperature,N/A,C,N/A
31,P1-DIMM2A Temp,Temperature,33.00,C,'OK'
32,P1-DIMM2B Temp,Temperature,N/A,C,N/A
33,P1-DIMM3A Temp,Temperature,36.00,C,'OK'
34,P1-DIMM3B Temp,Temperature,N/A,C,N/A
35,P2-DIMM1A Temp,Temperature,41.00,C,'OK'
36,P2-DIMM1B Temp,Temperature,N/A,C,N/A
37,P2-DIMM2A Temp,Temperature,43.00,C,'OK'
38,P2-DIMM2B Temp,Temperature,N/A,C,N/A
39,P2-DIMM3A Temp,Temperature,41.00,C,'OK'
40,P2-DIMM3B Temp,Temperature,N/A,C,N/A

blind_oracle ★★★★★
()
Ответ на: комментарий от blind_oracle

Ну я к тому что к примеру харды - да, вёдрами выносим регулярно благодаря алармам от мониторинга, благодаря чему ещё ни разу не прощёлкали чтоб массив рассыпался, а вот всё остальное - единичные случаи чтоб сгорело, да если и сгорит проц - так мониторь его или не мониторь, всёравно системный фейл на себя внимание сразу же обратит.

af5 ★★★★★
()
Ответ на: комментарий от af5

Ну это понятно, что харды самый заменяемый расходник. Плюс, как минимум до появления суперконденсаторов, приходилось мониторить и батарейку кэша т.к., особенно при большой температуре, она часто дохла.

Ну БП с кулерами достаточно важная вещь, которая не приведет к немедленному коллапсу системы, но при этом снизит надежность.

А остальное, да, вторично.

blind_oracle ★★★★★
()
23 июля 2013 г.
Ответ на: комментарий от blind_oracle

Я мониторю независимо от ОС через iLO/IPMI-over-LAN. Написал скрипт для заббикса, который запускает ipmi-sensors и опрашивает сервера

А можно посмотреть на скрипт и темплейт? А то фигня какая-то получаетс. Zabbix умеет только аналоговые датчики с ipmi, а там из аналоговых только температура.

А как раз она то меньше всего и интересует.
Хотелось бы вот это мониторить.

VRM 1 | 0x00 | ok
UID Light | 0x00 | ok
Sys. Health LED | 0x00 | ok
Power Supply 1 | 0x00 | ok
Fan 1 | 35.28 percent | ok
Fan 2 | 35.28 percent | ok
Fan 3 | 35.28 percent | ok
Fan 4 | 39.20 percent | ok
Fan 7 | 17.64 percent | ok
Memory | 0x00 | ok

Но это все дисктретное и заббикс стабильной ветки это не умеет.

owlmind
() автор топика
Ответ на: комментарий от owlmind

Да, я потому скрипт и написал, что встроенная в заббикс крайне убога...

Скрипт: http://pastebin.com/t8zhy6hz (там надо подправить логин-пароль и путь до freeipmi)

Шаблоны (там для Proliant DL380 G5 / DL320 G5 / DL320s G1 / ML310 G5, Supermicro X8DTH_6F / X8DTU_6TF / X9SRI_3F): http://novg.net/zbx_ipmi_templates.xml

Там уже быстро можно допилить под любой другой...

Да, темплейты юзают макрос IPMI_HOSTNAME, который нужно назначить собственно хосту, к которому этот темплейт будет приделан.

А, ну еще и сам скрипт положить в папочку, указанную в конфиге заббикса, там что-то типа scripts_path и дать права на выполнение юзером заббикса.

blind_oracle ★★★★★
()
Последнее исправление: blind_oracle (всего исправлений: 1)
Ответ на: комментарий от blind_oracle

Большое спасибо. Как раз под dl320 и нужны темплейты, буду пробовать.

owlmind
() автор топика
Ответ на: комментарий от blind_oracle

Запилил, помнял шаблон под dl320 g6. Но как-то слишком не стабильно оно работает. Время от времени по какой-то причине приходят пустые значения и происходит ложное срабатывание.
За сутки 3 раза сработало некорректно.

Это только один тестовый хост, представляю что будет если я добавляю все 40. Утону в спаме от заббикса. Можно ли как-то сделать чтобы оно срабатывало не после первого же фейла, а после нескольких. Как это сделать с обычными значениями через count() я знаю. А что с этим regexp делать не представляю.

owlmind
() автор топика
Ответ на: комментарий от owlmind

Сложно сказать, возможно IPMI иногда не отвечает. Я, вроде бы, такого особо не замечал у себя. Попробуй в регэксп добавить что пустое значение - тоже хорошо :)

blind_oracle ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.