LINUX.ORG.RU
решено ФорумAdmin

Torque-PBS задания стоят в очереди но не выполняется

 ,


0

2

Привет,

У меня машина dell T5600, установил и включил одновремнно 4 ОС centos6, и попытлся сделать чтото ворде виртуального кластера. Появилась проблемка, впринципе Torque-PBS работает ровно но когда ставлю задания в очередь, и запускаются 32-задчи, по одной на процессор, то нагружается только headnode где запущен и демон pbs_server, смотря на top или htop на ноде то процессы запускаемые torque, находятся в состоянии D (насколько знаю что значит «готовы в памяти») и судя по заполнености оперативной памяти так оно и есть, да вот только не хотят грузиться ядра нодов. Хотя задачи одинаковые только параметры разные грузится только главный нод.

Выхлоп чего-нибудь покажите (qstat, или как там оно у вас называется, например).

А почему torque? И каковы задачи кластера?

pianolender ★★★
()
Ответ на: комментарий от pianolender

Задачи не самые, красивы просто нужно чтото что ставит вычисления в очередь, и оперирует ими.

Я разкажу попорядку, на машине установлен VMware софт, безпатная версия софтане позволяет установить ОС видящую больше восьми ядер. Поетому я установил 4 ОС и все 4 работают ок. Инсталировал на одном из них все три демона Torque, поскоьку они в локальной сети, то сделал NFS, директорию и т.д.

Яставлю задачи в очередь и все о они становятся и начинают выполняться и аутпут таков: ///////////////////////////////////// [oleg@centos63 ~]$ qstat -q

server: centos63

Queue Memory CPU Time Walltime Node Run Que Lm State ---------------- ------ -------- -------- ---- --- --- — ----- batch  —  —  —  — 32 143 — E R ----- ----- 32 143 ////////////////////////////////////// .. .. 4336.centos63 nlp batch rst.20_R.22 5955 1 1 500mb 36:00:00 R 02:30:39 4337.centos63 nlp batch rst.20_R.23 5994 1 1 500mb 36:00:00 R 02:31:25 4338.centos63 nlp batch rst.20_R.24 6050 1 1 500mb 36:00:00 R 02:30:41 4339.centos63 nlp batch rst.20_R.25 6107 1 1 500mb 36:00:00 R 02:29:34 4340.centos63 nlp batch rst.20_R.26 6182 1 1 500mb 36:00:00 R 02:29:50 4341.centos63 nlp batch rst.20_R.27 31406 1 1 500mb 36:00:00 R 02:32:39 4342.centos63 nlp batch rst.20_R.28 31445 1 1 500mb 36:00:00 R 02:34:43 4343.centos63 nlp batch rst.20_R.29 31498 1 1 500mb 36:00:00 R 02:28:48 4344.centos63 nlp batch rst.20_R.30  — 1 1 500mb 36:00:00 Q  — 4345.centos63 nlp batch rst.21_R.1  — 1 1 500mb 36:00:00 Q  — 4346.centos63 nlp batch rst.21_R.2  — 1 1 500mb 36:00:00 Q  — 4347.centos63 nlp batch rst.21_R.3  — 1 1 500mb 36:00:00 Q  — 4348.centos63 nlp batch rst.21_R.4  — 1 1 500mb 36:00:00 Q  — 4349.centos63 nlp batch rst.21_R.5  — 1 1 500mb 36:00:00 Q  — 4350.centos63 nlp batch rst.21_R.6  — 1 1 500mb 36:00:00 Q  — .. .. .. //////////////////////////////////////////////////////////

Со сторон4336.centos63 nlp batch rst.20_R.22 5955 1 1 500mb 36:00:00 R 02:30:39 4337.centos63 nlp batch rst.20_R.23 5994 1 1 500mb 36:00:00 R 02:31:25 4338.centos63 nlp batch rst.20_R.24 6050 1 1 500mb 36:00:00 R 02:30:41 4339.centos63 nlp batch rst.20_R.25 6107 1 1 500mb 36:00:00 R 02:29:34 4340.centos63 nlp batch rst.20_R.26 6182 1 1 500mb 36:00:00 R 02:29:50 4341.centos63 nlp batch rst.20_R.27 31406 1 1 500mb 36:00:00 R 02:32:39 4342.centos63 nlp batch rst.20_R.28 31445 1 1 500mb 36:00:00 R 02:34:43 4343.centos63 nlp batch rst.20_R.29 31498 1 1 500mb 36:00:00 R 02:28:48 4344.centos63 nlp batch rst.20_R.30  — 1 1 500mb 36:00:00 Q  — 4345.centos63 nlp batch rst.21_R.1  — 1 1 500mb 36:00:00 Q  — 4346.centos63 nlp batch rst.21_R.2  — 1 1 500mb 36:00:00 Q  — 4347.centos63 nlp batch rst.21_R.3  — 1 1 500mb 36:00:00 Q  — 4348.centos63 nlp batch rst.21_R.4  — 1 1 500mb 36:00:00 Q  — 4349.centos63 nlp batch rst.21_R.5  — 1 1 500mb 36:00:00 Q  — 4350.centos63 nlp batch rst.21_R.6  — 1 1 500mb 36:00:00 Q  — /////////////////////////////////////////////////////

Torque все ок, но если посмотреть на изполнение задч как процесс то на гавном ноде (8 процессоров) они в состоянии 'R' и тоько иногда переходят в 'D' т.е. все ок, a на нодах так и стоят в 'D' (готовие в памяти) и не могут перейти в состояние 'R' т.е. наколько я понимаю ждут нкоего собития для того чтоб получити процессор. //////////////////////////////////////////////////////

murarius
() автор топика
13 августа 2014 г.

приветствую! У Вас по всей видимости не запущен pbs_sched

anonymous
()
18 февраля 2015 г.
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.