LINUX.ORG.RU
ФорумAdmin

HA Cluster Pacemaker+Corosync Ubuntu 22.04 по технологии Shared DAS, отваливается LUN в VMware при переезде ресурсов

 , , , ,


0

1

Всем доброго времени суток! Собрал кластер на Ubuntu 22.04 pacemaker+corosync по следующему ману: https://www.pvsm.ru/linux/87042

Ubuntu развернута на виртуальных машинах кластера VMware из 2х хостов, по одной виртуалке на каждом хосте, внутрь проброшены HBA Broadcom LSI SAS3408, каждый по 2 порта. Хосты виртуализации подключены к дисковой полке к SAS-экспандерам, в самой полке находятся 4 диска по 1.7 Тб каждый.

Кластер собран, диски определяются, stonith и ресурсы настроены. Ресурсы и порядок следующие: ip-scsi - VIP таргета target-pool1 - таргет zfs-pool1 - пул zfs, собранный из 4х дисков в draid1 lun1-pool1 - сам LUN ip-pool1 - mgmt VIP.

Проблема следующая: при ручном перемещении ресурсов или штатном/нештатном отключении виртуалок в VMware теряется связь с хранилищем-LUN, который предоставляется кластером HA. При этом, кластер на виндовых машинах с такими же ресурсами ведет себя нормально, LUB не теряется, связь не прерывается. Я думал, проблема в каких-то таймаутах, уменьшил параметры cluster-recheck-interval сократил до 1 секунды, cluster-delay до 1 секунды, ничего не изменилось. Сначала порядок ресурсов был VIP таргета->mgmt VIP->zfs-pool1->target-pool1->lun1-pool1.

Изменил порядок запуска на тот, что описал выше, но это тоже не помогло. В логах ничего критичного нет, кроме пары ошибок

Mar 16 12:38:29 labvnasubuntu-1 pacemaker-execd[1827]:  notice: zfs-pool1_start_0[31886] error output [ cannot open 'pool1': no such pool ]
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-execd[1827]:  notice: zfs-pool1_start_0[31886] error output [ /usr/lib/ocf/resource.d/heartbeat/ZFS: 35: [: Illegal number:  ]
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-execd[1827]:  notice: zfs-pool1_start_0[31886] error output [ /usr/lib/ocf/resource.d/heartbeat/ZFS: 35: [: Illegal number:  ]
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-controld[1832]:  notice: Result of start operation for zfs-pool1 on labvnasubuntu-1-ext: ok 

Mar 16 12:38:29 labvnasubuntu-1 systemd-udevd[32333]: zd0: Process '/usr/bin/unshare -m /usr/bin/snap auto-import --mount=/dev/zd0' failed with exit code 1.
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-controld[1832]:  notice: Result of monitor operation for zfs-pool1 on labvnasubuntu-1-ext: ok
Mar 16 12:38:29 labvnasubuntu-1 systemd-udevd[32333]: zd0p1: Process '/usr/bin/unshare -m /usr/bin/snap auto-import --mount=/dev/zd0p1' failed with exit code 1.

Вот они меня очень сильно смущают, но по этому поводу ничего не гуглится. Есть ли те, кто сталкивался с этим? Гугление ничего не дало, ищу второй день. Более полный лог pacemaker положил на пастбин: https://pastebin.com/eLj8DdtY

Пересобирал кластер на Centos 7.9, Centos 9 Stream - эффект один и тот же, лун отваливается. Попробовал объявить ресурс zfs и lun1-pool1 promotable, но на одном хосте он почему-то висит unpromoted, на другом stopped.

pcs resource create lun1-pool1 iSCSILogicalUnit target_iqn="iqn.2004-10.com.ubuntu:01:84de25ddfc37" implementation="lio-t" lun="0" path="/dev/pool1/vol1" promotable promoted-max=1 promoted-node-max=1 clone-max=2 clone-node-max=1 notify=true role=Promoted

После переключения нод ресурс не запускается, в логах фигурирует сообщение

warning: lun1-pool1-clone cannot run on vnas-centos-1 due to reaching migration threshold (clean up resource to allow again)

И пока не выполнишь pcs resource cleaup, ресурс не стартанет. Вообще, если честно, не совсем понял, как управлять ресурсами promoted. Что здесь то не так?

san4ez1008
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.