High Availability setup for Zabbix

0

2

Приветствую, уважаемое комюнити!

Прошу помощи разобраться в чем проблема с построением отказоустойчивого Zabbix'a.
Делаю вот по этому мануалу:


https://www.zabbix.org/wiki/Docs/howto/high_availability#High_Availability_se...

crm configure show


node $id=«1» dus-zabbix-1.nmedia.local
node $id=«2» dus-zabbix-2.nmedia.local
primitive failover-ip ocf:heartbeat:IPaddr \
        params ip=«192.168.5.235» \
        op monitor interval=«2s»
primitive failover-zabbix_server lsb:zabbix-server \
        op monitor interval=«5s»
group zabbix_server-cluster failover-ip failover-zabbix_server
property $id=«cib-bootstrap-options» \
        dc-version=«1.1.10-42f2063» \
        cluster-infrastructure=«corosync» \
        stonith-enabled=«false» \
        default-resource-stickiness=«100» \
        expected-quorum-votes=«2»

Дошел до пункта Setting up actual failover, делаю настройку, но при попытке запуска теста:

crm_mon --one-shot


Last updated: Thu Apr 23 16:19:35 2015
Last change: Thu Apr 23 16:11:13 2015 via cibadmin on dus-zabbix-2.nmedia.local
Stack: corosync
Current DC: dus-zabbix-2.nmedia.local (2) - partition with quorum
Version: 1.1.10-42f2063
2 Nodes configured
2 Resources configured


Online: [ dus-zabbix-1.nmedia.local dus-zabbix-2.nmedia.local ]

 Resource Group: zabbix_server-cluster
     failover-ip        (ocf::heartbeat:IPaddr):        Started dus-zabbix-2.nmedia.local 
     failover-zabbix_server     (lsb:zabbix-server):    Started dus-zabbix-2.nmedia.local FAILED 

Failed actions:
    failover-ip_start_0 (node=dus-zabbix-1.nmedia.local, call=13, rc=1, status=complete, last-rc-change=Thu Apr 23 16:16:22 2015
, queued=48ms, exec=0ms
): unknown error
    failover-zabbix_server_monitor_5000 (node=dus-zabbix-2.nmedia.local, call=118, rc=7, status=complete, last-rc-change=Thu Apr 23 16:19:34 2015
, queued=2ms, exec=1ms
): not running

конфиг corosync:


# Please read the openais.conf.5 manual page
totem {
        version: 2
        # How long before declaring a token lost (ms)
        token: 3000
        # How many token retransmits before forming a new configuration
        token_retransmits_before_loss_const: 10
        # How long to wait for join messages in the membership protocol (ms)
        join: 60
        # How long to wait for consensus to be achieved before starting a new round of membership configuration (ms)
        consensus: 3600
        # Turn off the virtual synchrony filter
        vsftype: none
        # Number of messages that may be sent by one processor on receipt of the token
        max_messages: 20
        # Limit generated nodeids to 31-bits (positive signed integers)
        clear_node_high_bit: yes
        # Disable encryption
        secauth: off
        # How many threads to use for encryption/decryption
        threads: 0
        # Optionally assign a fixed node id (integer)
        nodeid: 1
        # This specifies the mode of redundant ring, which may be none, active, or passive.
        rrp_mode: none
        interface {
                # The following values need to be set based on your environment 
                ringnumber: 0
                bindnetaddr: 192.168.5.0
                mcastaddr: 239.255.1.1
                mcastport: 5405
        }
}
amf {
        mode: disabled
}

Прошу подсказать, что я делаю не так?

Спасибо!

Ссылка

←	Проброс внешнего USB CDROM через Rdesktop сТК в терминальную сессию Win2008R2

Мониторинг и контроль потребления ресурсов процессами NFS

→

Прошу подсказать, что я делаю не так?

Используешь заббикс, да еще и с коросинком. Хочется отказоустойчивости - подними лучше балансер, базу с репликацией, пару бекендов и zabbix-proxy.

anonymous
(24.04.15 00:52:51 MSK)

Ссылка

А где репликация субд? Не вижу. Без этого смысла нет.

blind_oracle ★★★★★
(24.04.15 13:34:36 MSK)

Ссылка

Пишет же, что не смог поднять failover-ip Тебя не смущает, что в твоем конфиге у IP адреса нет маски?

Yur4eg ★★
(24.04.15 16:50:08 MSK)

Ответ на: комментарий от Yur4eg 24.04.15 16:50:08 MSK

Ты имеешь ввиду конфиг corosync?

kbu ★
(27.04.15 12:09:17 MSK) автор топика
Последнее исправление: kbu 27.04.15 12:09:26 MSK (всего исправлений: 1)

Ответ на: комментарий от kbu 27.04.15 12:09:17 MSK

Нет, верхний конфиг. corosync это транспортный уровень кластера, он отвечает за то, чтобы узлы видели друг друга и сообщения межлу ними гарантированно доходили.

А проблема у тебя на уровне логики за что отвечает pacemaker

Failed actions:
    failover-ip_start_0 (node=dus-zabbix-1.nmedia.local, call=13, rc=1, status=complete, last-rc-change=Thu Apr 23 16:16:22 2015
, queued=48ms, exec=0ms]

А вот кусок кода, описывающий примитив.

primitive failover-ip ocf:heartbeat:IPaddr \
        params ip=«192.168.5.235» \
        op monitor interval=«2s»

Bобщем читай syslog, там должно быть что-то

Yur4eg ★★
(27.04.15 12:45:30 MSK)

Ответ на: комментарий от Yur4eg 27.04.15 12:45:30 MSK

Большое спасибо, буду читать..

kbu ★
(30.04.15 10:28:15 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Проброс внешнего USB CDROM через Rdesktop сТК в терминальную сессию Win2008R2

Admin

Мониторинг и контроль потребления ресурсов процессами NFS

→

Похожие темы