LINUX.ORG.RU
решено ФорумAdmin

Отказо устойчивый кластер.


0

2

Задача по идее тривиальная, но не могу понять по каким словам гуглить и потому прошу помощи.

Дано: Два сервера с Xen, kvm (или чем-то еще), в виртуальной машине вертится некий сервис. Задача: При отказе одного из серверов, сервис не останавливается, а продолжает работать.

В какую сторону копать?

Задача по идее тривиальная

Это смотря с какой стороны смотреть. С точки зрения реализации - очень не тривиальная.

В какую сторону копать?

ЕМНИП такая тема тут уже поднималась, а то и не раз. Опять же ЕМНИП, остановились на том, что открытых Ънтерпрайзных решений пока нет. В той же теме упоминался Kemari Project.

Deleted
()
Ответ на: комментарий от Deleted

Задумался не то написал: распорстраненная.

На кемари уже наткнулся, читаю.

Спасибо.

desruptor
() автор топика
Ответ на: комментарий от Deleted

>This software is experimental and developing software.

Это немного не радует.

desruptor
() автор топика

Во-первых, нужно независимое хранилище. Это может быть такая красивая коробочка с тремя буквами, либо еще один линуксовый кластер на базе DRBD или GlusterFS, например. Рекомендую, во избежание наращивания уровней абстракции, юзать блочное устройство с синхронизацией через DRBD и экспортом через iSCSI (это гораздо эффективнее, чем городить там файловую систему и держать на ней образы дисков).

Во-вторых, определись сразу: либо ты миришься с тем, что при падении ноды кластера у всех исполнявшихся на ней инстансов возникает эффект холодной перезагрузки (нажатия резета), либо используешь remus и терпишь жуткие тормоза, обусловленные непрерывной синхронизацией оперативки инстансов между нодами.
Кстати, kemari — это идеологический предок и бывший конкурент remus'а, не доживший до наших дней. А поддержка remus уже интегрирована в Xen 4.0.

Во остальном, если ты освоил хоть один нормальный кластер-манагер, задача действительно тривиальна.
// Рекомендую heartbeat + pacemaker, на их базе я такую задачу успешно решал.

nnz ★★★★
()

ganeti - при падении одной из нод гости перезапускаются на второй ноде. Репликация выполняется по drbd.

Marvin
()

Прежде всего, что за сервис?
Если он не fault-tolerance, то надо определить механизмы его поднятия на другой ноде, и вообще подумать, нужен ли кластер при таком раскладе

Hokum ☆☆☆☆
()

«Отказоустойчивый» пишется слитно. Вопрос не понятен.

drSchur ★★★
()

ключевые слова: global fs, scalable services, shared addresses.

EvgGad_303 ★★★★★
()

Всем спасибо, ушел гуглить по новым словам поиска.

desruptor
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.