Привет всем. Что-то у меня с этим high-availability скоро крыша съедет. Хочется: подключиться к iscsi-хранилищу, смонтировать файловую систему и запустить какой-нибудь апач. Всё это в кластере. Для подключения к iscsi использую агента ocf:heartbeat:iscsi, вот с ним какая-то дурацкая проблема. Вернее, проблема с ним совершенно понятная, только непонятно почему в этом коросинке нихрена с этой проблемой сделать не удается.
В общем, настроен ресурс, из параметров только portal и target. Когда всё запущено и работает нормально, этот ресурс тоже запускается и работает. Но если вдруг в момент запуска этого ресурса target оказывается не доступен - всё, жопа.
corosync воспринимает это как полный капут, и убирает ресурс с узла кластера вообще. В логах появляется следующее:
pengine: info: get_failcount: iscsivol2 has failed INFINITY times on node2 pengine: warning: common_apply_stickiness: Forcing iscsivol2 away from node2 after 1000000 failures (max=1000000)
Просто отпадные заявления по поводу одной-единственной ошибки. А главное - вернуть его не удается, вообще. Пока кластер не перезапустишь, никакие танцы не помогают - unmanage/manage, stop/start - всё пофиг.
Вопрос: как ему сказать, что если iscsi target отвалился, то надо всего лишь попробовать запустить этот ресурс позже. Или, хотя бы, как его вручную пнуть, чтоб заработал?
pacemaker 1.1.8, corosync 2.2.0, fedora 18.