Проблемы с кластером.

0

1

Впервые попробовал собрать двухнодовый кластер на базе двух vm OracleLinux на ESX. Кворумный диск не использую. Ноды: a-svfeOL 10.10.60.15 b-svfeOL 10.10.60.16 общий ip 10.10.06.14

Конфиг кластера:

<?xml version="1.0"?>
<cluster config_version="3" name="svfeOL-cluster">
        <cman expected_votes="1" two_node="1"/>
        <clusternodes>
                <clusternode name="a-svfeOL" nodeid="1" votes="1">
                        <fence/>
                </clusternode>
                <clusternode name="b-svfeOL" nodeid="2" votes="1">
                        <fence/>
                </clusternode>
        </clusternodes>
        <fencedevices/>
        <rm log_facility="local4" log_level="5">
                <failoverdomains>
                        <failoverdomain name="svfeOL-cluster" nofailback="0" ordered="0" restricted="1">
                                <failoverdomainnode name="a-svfeOL" priority="1"/>
                                <failoverdomainnode name="b-svfeOL" priority="1"/>
                        </failoverdomain>
                </failoverdomains>
                <service autostart="1" name="svfeOL" recovery="relocate">
                        <ip address="10.10.60.14" monitor_link="1"/>
                </service>
        </rm>
        <totem consensus="4800" join="60" token="20000" token_retransmits_before_loss_const="20"/>
</cluster>

Вывод clustat на обоих машинах одинаков:

Cluster Status for svfeOL-cluster @ Fri Sep 21 12:05:34 2012
Member Status: Quorate

 Member Name                             ID   Status
 ------ ----                             ---- ------
 a-svfeOL                                    1 Online, rgmanager
 b-svfeOL                                    2 Online, Local, rgmanager

 Service Name                   Owner (Last)                   State
 ------- ----                   ----- ------                   -----
 service:svfeOL                 a-svfeOL                       started

Вывод cman_tool status:

Version: 6.2.0
Config Version: 3
Cluster Name: svfeOL-cluster
Cluster Id: 4149
Cluster Member: Yes
Cluster Generation: 180
Membership state: Cluster-Member
Nodes: 2
Expected votes: 1
Total votes: 2
Node votes: 1
Quorum: 1
Active subsystems: 8
Flags: 2node
Ports Bound: 0 177
Node name: a-svfeOL
Node ID: 1
Multicast addresses: 239.192.16.69
Node addresses: 10.10.60.15

На второй почти тоже самое, только ID 2 и Ports Bound: пусто.

Для организации общего IP 10.10.60.14 был установлен hearbeat 3.0.3. hc.cf:

debugfile /var/log/ha-debug
logfile /var/log/ha-log
logfacility local0
keepalive 2
deadtime 25
warntime 10
initdead 50
udpport 694
bcast eth4
ucast eth4 10.10.60.15
auto_failback on
node a-svfeOL 
node b-svfeOL

конфиг haresource:

a-svfeOL IPaddr::10.10.60.14/24/eth4

Iptables отключен. Когда все включено все работает ОК. Hearbeat исправно поднимает адрес на первой ноде. Делаю ifconfig eth4 down на второй ноде. На первой ноде clustat, продолжает работать, пинг на 10.10.60.14 идет:

Cluster Status for svfeOL-cluster @ Fri Sep 21 12:21:12 2012
Member Status: Quorate

 Member Name                                                     ID   Status
 ------ ----                                                     ---- ------
 a-svfeOL                                                            1 Online, Local, rgmanager
 b-svfeOL                                                            2 Offline

 Service Name                                                     Owner (Last)                                                     State
 ------- ----                                                     ----- ------                                                     -----
 service:svfeOL                                                   a-svfeOL                                                         started

На второй ноде вылазит строчка

dlm: closing connection to node 2

Поднимаю интерфейс на второй ноде обратно. На второй ноде вылазит:

dlm: closing connection to node 1

На первой ноде cman отпадает!!! На обоих нода вылазит сообщение:

INFO: task rgmanager blocked for more than 120 secons

При попытке на первой ноде поднять cman, вылазит:

Unfencing self... fence_node: cannot connect to cman
Leaving fence domain... found dlm lockspace /sys/kernel/dlm/rgmanager

Rgmanager не убивается вообще, помогает только перезагрузка обоих серверов. Что делать?)))

Ссылка

Похожие темы