Меня всегда поражали такие диспетчерские на стопицот мониторов. Толку от этого гипероснащения ноль. Следить за показателями должна машина, а не человек. Даже если какие-то показатели выходят за пределы нормы, то машина должна предпринять действия к устранению неполадок. И только если в атоматическом режиме это невозможно должно появляться сообщение для пользователя, а для этого достаточно одного монитора.
Элементарно. Берётся на работу нормальный начальник отдела, который стимулирует. То-есть лупит палкой. Или круговая порука. У меня никто, никогда такого не позволял, максимум печенька и чаёк. Неужто приятно в суповом запашке потом сидеть?
про суповой запашёк не знаю. я работаю ночью, нас минимум 2е (саппорт и я). сидим в разных концах этажа. можно врубать металл и кататься на велике (пока ктонибудь чтонибудь не положит...)
да и у нас народ в основном на салатики/бутерброды налегает. пахучую еду едят только арабы, но они за компом жрать не привыкли.
времени идти есть в столовую особо нет. даже если дежурного заменяют на время обеда, за пол часа может много чего произойти и не всегда приятного.
как можно автоматизировать устранение поломок, совершенные юзверем?
Очень просто. Есть состояние, которое мы считаем нормой, например работают демоны Апача, MySQL'я, проверочная страница отдаётся верно, если эти условия нарушаются программа может попытаться выяснить неполадку, в каком месте отклонились от нормы. Возможно, что пользователь может ввести специальную команду вида «запланированы технические работы, 1 час не реагировать на отклонение от нормы». По прошествии часа у оператора появляется сообщение вида «час прошёл, а сервис всё лежит, свяжись с клиентом, проясни ситуацию, продли отбой на час/неделю/год». Человек в данном случае выступает всего лишь ещё одним датчиком, он проверяет состояние другого человека и отвечает программе мониторинга.
запланировать тех.работы можно и юзвери этим пользуются, но
есть клиенты - банки, есть геймерские серваки и другие которые за 5 минут простоя теряют большие деньги.
за сервис мониторинга платят не мало,причем именно за то что когда придут 10 сообщений типа «сервер недоступен» + по 5-20 сообщений сервисов на сервер, человек сообразит что лег load balancer, а не десяток отдельных машин.
для геймерских серваков есть отдельный мобильник, который звонит даже если приходит банальная заявка на cиськовый ACL.
конечно близзард хостится не у нас, но есть другой не менее популярный поработитель школоты, который платит за то что бы блондинко подняло_сервак/перенастроила_фаервол/поправила_конфиг_ядра/и_так_далее вот прям щас, за 15 минут в 3 часа ночи.
для простых смертных автоматизация уже давно есть.
запланировать тех.работы можно и юзвери этим пользуются, но есть клиенты - банки, есть геймерские серваки и другие которые за 5 минут простоя теряют большие деньги.
Помидор красный, но у трактора дверь наружу открывается. О чём вы вообще? Любой клиент при простое теряет деньги.
за сервис мониторинга платят не мало,причем именно за то что когда придут 10 сообщений типа «сервер недоступен» + по 5-20 сообщений сервисов на сервер, человек сообразит что лег load balancer, а не десяток отдельных машин.
Для вывода 10 сообщений «сервер недоступен» нужно 10 мониторов? Балансировщик нагрузки не мониторится, от него сообщения не приходят? Нет графического отображения сети, на котором было бы видно, что отвалилась целая ветка, а значит причину надо искать в основании этой ветки (балансировщик), а не в конечных узлах?
для геймерских серваков есть отдельный мобильник, который звонит даже если приходит банальная заявка на cиськовый ACL.
Ну и что? Разве я говорил что-то против? Я говорил, что для каждой задачи должен быть веб-интерфейс? Для клиента телефон Поддержки тоже вполне человеко-машинный интерфейс.
платит за то что бы блондинко подняло_сервак/перенастроила_фаервол/поправила_конфиг_ядра/и_так_далее вот прям щас, за 15 минут в 3 часа ночи.
всем клиентам идет сообщение если их сервак не отвечает на пинг. это по дефолту.
Для вывода 10 сообщений «сервер недоступен» нужно 10 мониторов? Балансировщик нагрузки не мониторится, от него сообщения не приходят? Нет графического отображения сети, на котором было бы видно, что отвалилась целая ветка, а значит причину надо искать в основании этой ветки (балансировщик), а не в конечных узлах?
2х моников вполне хватает, но почему нельзя сделать «по кулхацкерски» если у конторы на это есть бабки. я еще не замечала что бы они кому-то мешали.
графическое отображение сети и еще пара плюшек с фотки умышленно убанны.
Про отвалившуюся ветку, ты не совсем представляешь архитекруту. Там скорее роща.
Ты вообще представляешь себе хостинговую контору с пятеркой датацентров?
Балагсировщики естественно мониторятся, но если он упадет, все равно придут сообщения о недоступных серверах которые за балансировщиком(ами)
А при чём здесь мониторинг?
при том что дежурный обрабатывает сообщения nagios, пока клиент не подозревает что его сервак упал
Опять же, если тут так все плохо и тупо, может быть есть предложения как улучшить? только не глобально «а вот надо», а конкретно, софт, ссылки или даже пример конфига со скриншотом?
чего мелочится, скрин в студию!
всем клиентам идет сообщение если их сервак не отвечает на пинг. это по дефолту.
при том что дежурный обрабатывает сообщения nagios, пока клиент не подозревает что его сервак упал
Я один здесь вижу противоречие?
Балагсировщики естественно мониторятся, но если он упадет, все равно придут сообщения о недоступных серверах которые за балансировщиком(ами)
То есть система сбора сообщений «тупая», хотя могла бы быть «умная». Поступило сообщение о недоступности сервера->проверяется доступность узлов по пути к серверу.
2х моников вполне хватает, но почему нельзя сделать «по кулхацкерски» если у конторы на это есть бабки.
То есть я был прав.
Рад, что у вашей конторы водятся лишние деньги. Это как бэ говорит нам, что хоть у вас все не настроено идеально, ещё есть что улучшать, всё равно это значительно лучше чем у большинства конкурентов.
Противочечия нет, по дефолту мониторится пинг. У клиентов которые платят, мониторятся сервисы. Есть разные тарифы.
То есть система сбора сообщений «тупая», хотя могла бы быть «умная». Поступило сообщение о недоступности сервера->проверяется доступность узлов по пути к серверу
Опять же, если тут так все плохо и тупо, может быть есть предложения как улучшить? только не глобально «а вот надо», а конкретно, софт, ссылки или даже пример конфига со скриншотом? чего мелочится, скрин в студию!