LINUX.ORG.RU
ФорумAdmin

Падает сервер!


1

2

Привет всем!

Ситуация такая, есть сервак на SLES 11 SP1. Основная роль его «Файловый сервер» samba + LDAP. Расшаренные ресурсы находятся на СХД Hitachi. Все это крутиться в кластере HA из 2 нод. Физически каждая нода? это лезвие двух разных IBM BladeServer находящих друг от друга в разных зданиях (SAN сеть). Работает 2 года без проблем, но 2 недели назад начал перегружаться 1, 2 раза в сутки. В логах пусто. Пробовал тушить каждую ноду эффект тот же. Все проверил, не знаю куда копать.

Может кто подскажет!

Спасибо заранее!

Стандартно. Память, бэды, конденсаторы...

teamfighter
()
Ответ на: комментарий от teamfighter

Я же говорю 2 разных BladeServera 14 лезвий в каждом и по одному лезвию являются ноды. Так что стандартная ситуация не подходит (2 разных железки)

kawsoft
() автор топика
Ответ на: комментарий от kawsoft

А вообще:

  • Что используется в роли HA?
  • У тебя классический HA с master-slave?
  • Перезагрузка идет только на мастере или и на слейве?
  • Как определяется что мастер сдох и проходит переключение на слейв?
kukara4 ★★
()
Последнее исправление: kukara4 (всего исправлений: 2)
Ответ на: комментарий от kawsoft

Тогда надо думать... Тут предыдущий комментатор задал вопросы, ждем информации

teamfighter
()

Две ноды в результате какой-то чепухи считают себя изолированными и самоубиваются, чтобы не навредить кластеру, надо третью ноду.

anonymous
()
Ответ на: комментарий от kukara4

1) pacemaker 2) да 3) мастер перегружается, но слейв на себя не берет управление. 4) Heartbeat

kawsoft
() автор топика
Ответ на: комментарий от kukara4

Пробовал сам тушить мастера и слейв отрабатывает. Решил попробовать в одну ноду, результат тоже. Потом менял местами, так же.

kawsoft
() автор топика
Ответ на: комментарий от kawsoft

мастер перегружается, но слейв на себя не берет управление
Пробовал сам тушить мастера и слейв отрабатывает

Автоматом переключения нет, а если вручную то все норм?

Решил попробовать в одну ноду, результат тоже

Полет был на одном мастере?

kukara4 ★★
()
Ответ на: комментарий от kukara4

да при искусственном убиении мастера слейв подхватывает, а при описанной ситуации нет. Что на одном мастере, что на одном слейве происходят ребуты!

kawsoft
() автор топика
Ответ на: комментарий от kawsoft

глупость, скорее всего, но самбу никакая виндовирь не пытается сломать ?

handbrake ★★★
()
Ответ на: комментарий от kawsoft

Я бы в такой ситуации выкинул нахер хартбит с пейсмейкером и пожил бы на одной ноде, дабы убедится что проблема с ними. И во время этого активно мониторил бы сеть, почему-то мне кажется что херь происходит с сетью и связью этих самых серверов.

kukara4 ★★
()
Ответ на: комментарий от kawsoft

при искусственном убиении мастера слейв подхватывает, а при описанной ситуации нет

было такое, возникало из-за проблем сетевого оборудования

vxzvxz ★★★
()
Ответ на: комментарий от expelled

reboot system boot 2.6.32.54-0.3-de Thu Mar 20 11:12
reboot system boot 2.6.32.54-0.3-de Wed Mar 19 16:24
reboot system boot 2.6.32.54-0.3-de Tue Mar 18 10:56
reboot system boot 2.6.32.54-0.3-de Tue Mar 18 10:17
reboot system boot 2.6.32.54-0.3-de Fri Mar 14 20:35
reboot system boot 2.6.32.54-0.3-de Fri Mar 14 09:42
reboot system boot 2.6.32.54-0.3-de Thu Mar 13 15:26
reboot system boot 2.6.32.54-0.3-de Wed Mar 12 08:51
reboot system boot 2.6.32.54-0.3-de Wed Mar 12 08:31
reboot system boot 2.6.32.54-0.3-de Wed Mar 12 08:15
reboot system boot 2.6.32.54-0.3-de Tue Mar 11 17:20
reboot system boot 2.6.32.54-0.3-de Fri Mar 7 13:49
reboot system boot 2.6.32.54-0.3-de Fri Mar 7 11:38
reboot system boot 2.6.32.54-0.3-de Thu Mar 6 13:08
reboot system boot 2.6.32.54-0.3-de Thu Mar 6 08:47
reboot system boot 2.6.32.54-0.3-de Thu Mar 6 08:30
reboot system boot 2.6.32.54-0.3-de Wed Mar 5 13:09
reboot system boot 2.6.32.54-0.3-de Wed Mar 5 11:33
reboot system boot 2.6.32.54-0.3-de Tue Mar 4 09:36
reboot system boot 2.6.32.54-0.3-de Tue Mar 4 08:56
reboot system boot 2.6.32.54-0.3-de Tue Mar 4 08:43
reboot system boot 2.6.32.54-0.3-de Mon Aug 26 17:30

kawsoft
() автор топика
Ответ на: комментарий от kawsoft

У сусе были траблы с ZENworks Configuration Management 11.1 Они ее пофиксили, но еще в 12 году.
Могут гадить watchdog'и.
Как вариант вспомнить кого, недавно, уволили :)

expelled ★★
()
Ответ на: комментарий от kawsoft

отбой это инициализация его была
Mar 20 11:12:27 10.128.100.33 sbd: [5182]: notice: Using watchdog device: /dev/watchdog
Mar 20 11:12:27 10.128.100.33 sbd: [5182]: info: Set watchdog timeout to 5 seconds.

kawsoft
() автор топика
Ответ на: комментарий от handbrake

доступ имеют только 3 человека 2 сисадмина и начальник
последний сисадмин увольнялся года полтора назад
в логах на ребут команд нет, физически тоже не возможно сделать серверная под замком ключ у начальника.

kawsoft
() автор топика

Может кто подскажет!

падает падает падает сееервееер.

Use zabbix luke! Загони сервер в заббикс и мониторь что предвещает остановку.

MikeDM ★★★★★
()

см. не только логи ОС, но и логи кластерного софта на обоих нодах.
Логи железа тоже проверь.

bigbit ★★★★★
()
Ответ на: комментарий от kawsoft

Остальные сервера, которые пользует СХД, нормально живут? СХД мониторится?
Сетевое оборудование уже упоминали, оно держит пиковую нагрузку?
Хост который разадет nfs, в него не пишет данные большого обьема?

expelled ★★
()
Ответ на: комментарий от expelled

Логи блейдов в норме, адаптеры san сети тож молчат.
В логах pacemakera тоже ошибок нет одни отчеты о состоянии кластера.

Все моунт с СХД нормально работают
по nfs раздает шары в область, там токль небольшие объемы xls, doc

kawsoft
() автор топика
Ответ на: комментарий от kawsoft

выруби peacemaker, heartbeat, все watchdog и запусти на одном лезвии.
засунь в мониторинг забикса камень, рам, сеть.
сислог натрави на другой сервак.

expelled ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.