Доброго времени суток, aLL
Есть 3 сервера в кластере. На каждом сервере по две сетевых в bond'е. Сервера подключены между собой свичом Nortel BayStack 5510. Для каждого сервера создан trunk на его две сетевые. Свич нормально работает, сетевых ошибок нет, электричество в норме, время на всех нодах синхронизировано.
Периодически, раз-два в неделю одна или две ноды выпадают из кластера - теряют кворум. Разные ноды. В разное время: днем, во время основной нагрузки, ночью, когда бэкапы делаются, в выходные дни простоя - никакой системы.
Что характерно лечится сие ребутом «проблемной» ноды. Иногда помогает такое вот заклинание:
service pvestatd stop
service pvedaemon stop
service cman stop
service pve-cluster stop
sleep 2
service pve-cluster start
service cman start
service pvestatd start
service pvedaemon start
:~# pvecm status
Version: 6.2.0
Config Version: 6
Cluster Name: sdpi
Cluster Id: 1649
Cluster Member: Yes
Cluster Generation: 17280
Membership state: Cluster-Member
Nodes: 1
Expected votes: 2
Total votes: 1
Node votes: 1
Quorum: 2 Activity blocked
Active subsystems: 1
Flags:
Ports Bound: 0
Node name: virt3
Node ID: 3
Multicast addresses: 239.192.6.119
Node addresses: 192.168.0.213
В логах разве что вот:
corosync.log:
...
Nov 08 08:41:58 corosync [TOTEM ] Retransmit List: 2f713 2f715 2f716 2f717 2f718 2f719 2f6f8 2f70a 2f70b 2f6
Nov 08 08:42:08 corosync [TOTEM ] A processor failed, forming new configuration.
Nov 08 08:42:20 corosync [CLM ] CLM CONFIGURATION CHANGE
Nov 08 08:42:20 corosync [CLM ] New Configuration:
Nov 08 08:42:20 corosync [CLM ]r(0) ip(192.168.0.213).
Nov 08 08:42:20 corosync [CLM ] Members Left:
Nov 08 08:42:20 corosync [CLM ] r(0) ip(192.168.0.211).
Nov 08 08:42:20 corosync [CLM ] r(0) ip(192.168.0.212).
Nov 08 08:42:20 corosync [CLM ] Members Joined:
Nov 08 08:42:20 corosync [QUORUM] Members[2]: 2 3
Nov 08 08:42:20 corosync [CMAN ] quorum lost, blocking activity
Nov 08 08:42:20 corosync [QUORUM] This node is within the non-primary component and will NOT provide any services.
Nov 08 08:42:20 corosync [QUORUM] Members[1]: 3
Nov 08 08:42:20 corosync [CLM ] CLM CONFIGURATION CHANGE
Nov 08 08:42:20 corosync [CLM ] New Configuration:
Nov 08 08:42:20 corosync [CLM ] r(0) ip(192.168.0.213).
Nov 08 08:42:20 corosync [CLM ] Members Left:
Nov 08 08:42:20 corosync [CLM ] Members Joined:
Nov 08 08:42:20 corosync [TOTEM ] A processor joined or left the membership and a new membership was formed.
Nov 08 08:42:20 corosync [CPG ] chosen downlist: sender r(0) ip(192.168.0.213) ; members(old:3 left:2)
Nov 08 08:42:20 corosync [MAIN ] Completed service synchronization, ready to provide service.
Nov 08 09:35:24 corosync [SERV ] Unloading all Corosync service engines.