Всем доброго времени суток!
Собрал кластер на Ubuntu 22.04 pacemaker+corosync по следующему ману: https://www.pvsm.ru/linux/87042
Ubuntu развернута на виртуальных машинах кластера VMware из 2х хостов, по одной виртуалке на каждом хосте, внутрь проброшены HBA Broadcom LSI SAS3408, каждый по 2 порта. Хосты виртуализации подключены к дисковой полке к SAS-экспандерам, в самой полке находятся 4 диска по 1.7 Тб каждый.
Кластер собран, диски определяются, stonith и ресурсы настроены.
Ресурсы и порядок следующие:
ip-scsi - VIP таргета
target-pool1 - таргет
zfs-pool1 - пул zfs, собранный из 4х дисков в draid1
lun1-pool1 - сам LUN
ip-pool1 - mgmt VIP.
Проблема следующая: при ручном перемещении ресурсов или штатном/нештатном отключении виртуалок в VMware теряется связь с хранилищем-LUN, который предоставляется кластером HA. При этом, кластер на виндовых машинах с такими же ресурсами ведет себя нормально, LUB не теряется, связь не прерывается. Я думал, проблема в каких-то таймаутах, уменьшил параметры cluster-recheck-interval сократил до 1 секунды, cluster-delay до 1 секунды, ничего не изменилось. Сначала порядок ресурсов был VIP таргета->mgmt VIP->zfs-pool1->target-pool1->lun1-pool1.
Изменил порядок запуска на тот, что описал выше, но это тоже не помогло. В логах ничего критичного нет, кроме пары ошибок
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-execd[1827]: notice: zfs-pool1_start_0[31886] error output [ cannot open 'pool1': no such pool ]
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-execd[1827]: notice: zfs-pool1_start_0[31886] error output [ /usr/lib/ocf/resource.d/heartbeat/ZFS: 35: [: Illegal number: ]
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-execd[1827]: notice: zfs-pool1_start_0[31886] error output [ /usr/lib/ocf/resource.d/heartbeat/ZFS: 35: [: Illegal number: ]
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-controld[1832]: notice: Result of start operation for zfs-pool1 on labvnasubuntu-1-ext: ok
Mar 16 12:38:29 labvnasubuntu-1 systemd-udevd[32333]: zd0: Process '/usr/bin/unshare -m /usr/bin/snap auto-import --mount=/dev/zd0' failed with exit code 1.
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-controld[1832]: notice: Result of monitor operation for zfs-pool1 on labvnasubuntu-1-ext: ok
Mar 16 12:38:29 labvnasubuntu-1 systemd-udevd[32333]: zd0p1: Process '/usr/bin/unshare -m /usr/bin/snap auto-import --mount=/dev/zd0p1' failed with exit code 1.
Вот они меня очень сильно смущают, но по этому поводу ничего не гуглится. Есть ли те, кто сталкивался с этим? Гугление ничего не дало, ищу второй день. Более полный лог pacemaker положил на пастбин: https://pastebin.com/eLj8DdtY
corosync, high availability, pacemaker, ubuntu, zfs