LINUX.ORG.RU

torque


0

0

Кто нибудь сталкивался с такой проблемой ? 

После перезагрузки узлов кластера задания ставятся в очередь но не запускаются. pbsnode показывает, что  все узлы доступны для выполнения.  
Если запустить, поставленную в очередь задание, в ручную через qrun то все прекрасно работает. 

Подозреваю что дело скорей всего в scheduler.  Помогите плз разобраться.

anonymous

Смотри логи.

>Подозреваю что дело скорей всего в scheduler.

Правильно подозреваешь. Он скорее всего у тебя не запущен ;)

sS ★★★★★
()
Ответ на: комментарий от sS

>Он скорее всего у тебя не запущен ;)

pbs_sched запущен

> Кстати проверь запустился ли на перегруженном узле pbs_mom

pbs_mom тоже запущен

kilohertz
()
Ответ на: комментарий от kilohertz

Тогда смотри логи (особенно */torque/mom_logs/*). Там пишется причина.

После падения узла возможно придётся перезапустить pbs_server и все pbs_mom

sS ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.