LINUX.ORG.RU
ФорумAdmin

Proxmox-2.2-26/c1614c8c - потеря кворума

 , , quorum


0

1

Доброго времени суток, aLL

Есть 3 сервера в кластере. На каждом сервере по две сетевых в bond'е. Сервера подключены между собой свичом Nortel BayStack 5510. Для каждого сервера создан trunk на его две сетевые. Свич нормально работает, сетевых ошибок нет, электричество в норме, время на всех нодах синхронизировано.

Периодически, раз-два в неделю одна или две ноды выпадают из кластера - теряют кворум. Разные ноды. В разное время: днем, во время основной нагрузки, ночью, когда бэкапы делаются, в выходные дни простоя - никакой системы.

Что характерно лечится сие ребутом «проблемной» ноды. Иногда помогает такое вот заклинание:

service pvestatd stop
service pvedaemon stop
service cman stop
service pve-cluster stop

sleep 2

service pve-cluster start
service cman start
service pvestatd start
service pvedaemon start
Но только иногда. Вопрос: что нужно еще сделать, перестартовать, отрихтовать, чтобы выпавшая нода «впала» обратно в кластер без полной перегрузки ноды?

:~# pvecm status

Version: 6.2.0
Config Version: 6
Cluster Name: sdpi
Cluster Id: 1649
Cluster Member: Yes
Cluster Generation: 17280
Membership state: Cluster-Member
Nodes: 1
Expected votes: 2
Total votes: 1
Node votes: 1
Quorum: 2 Activity blocked
Active subsystems: 1
Flags:
Ports Bound: 0
Node name: virt3
Node ID: 3
Multicast addresses: 239.192.6.119
Node addresses: 192.168.0.213

В логах разве что вот:

corosync.log:

...
Nov 08 08:41:58 corosync [TOTEM ] Retransmit List: 2f713 2f715 2f716 2f717 2f718 2f719 2f6f8 2f70a 2f70b 2f6
Nov 08 08:42:08 corosync [TOTEM ] A processor failed, forming new configuration.
Nov 08 08:42:20 corosync [CLM   ] CLM CONFIGURATION CHANGE
Nov 08 08:42:20 corosync [CLM   ] New Configuration:
Nov 08 08:42:20 corosync [CLM   ]r(0) ip(192.168.0.213).
Nov 08 08:42:20 corosync [CLM   ] Members Left:
Nov 08 08:42:20 corosync [CLM   ] r(0) ip(192.168.0.211).
Nov 08 08:42:20 corosync [CLM   ] r(0) ip(192.168.0.212).
Nov 08 08:42:20 corosync [CLM   ] Members Joined:
Nov 08 08:42:20 corosync [QUORUM] Members[2]: 2 3
Nov 08 08:42:20 corosync [CMAN  ] quorum lost, blocking activity
Nov 08 08:42:20 corosync [QUORUM] This node is within the non-primary component and will NOT provide any services.
Nov 08 08:42:20 corosync [QUORUM] Members[1]: 3
Nov 08 08:42:20 corosync [CLM   ] CLM CONFIGURATION CHANGE
Nov 08 08:42:20 corosync [CLM   ] New Configuration:
Nov 08 08:42:20 corosync [CLM   ] r(0) ip(192.168.0.213).
Nov 08 08:42:20 corosync [CLM   ] Members Left:
Nov 08 08:42:20 corosync [CLM   ] Members Joined:
Nov 08 08:42:20 corosync [TOTEM ] A processor joined or left the membership and a new membership was formed.
Nov 08 08:42:20 corosync [CPG   ] chosen downlist: sender r(0) ip(192.168.0.213) ; members(old:3 left:2)
Nov 08 08:42:20 corosync [MAIN  ] Completed service synchronization, ready to provide service.
Nov 08 09:35:24 corosync [SERV  ] Unloading all Corosync service engines.


Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.