Нагуглить не получается. Простая вроде бы вещь.
Что-то типа workflow manager'а, работающего на кластере.
Должен на входе получать граф с задачками и запускать их на отдельных нодах.
Отказоустойчиво: если задача по своим внутренним причинам упала, должна быть возможность пнуть ее еще раз. Если упала нода, manager должен сам перезапустить на соседней. Ну и естественно устойчивость к спонтанной перезагрузке всего кластера.
Нужен web интерфейс, откуда можно смотреть (глазами) за задачами и, в случае чего, пинать перезапуск.
Нужен API для создания/удаления задач и мониторинга их статусов.
Плюшки вроде наличия блокировок, владения ресурсами и т.д приветствуются, но не обязательны.