LINUX.ORG.RU
ФорумAdmin

Зависает mpiexec

 , , ,


0

1

Система: centos7, кастомное ядро, система не обновлялась где-то месяц.

openmpi: собрано вручную (по некоторым причинам) из последнего релиза 1.10.

Команда от рута mpiexec --allow-run-as-root --hostfile hostfile hostname зависает без вариантов и ничего не происходит. В hostfile находятся ip двух нодов. Если не указывать hostfile (либо не указывать --host node1,node2), то mpiexec работает нормально с любыми параметрами. С ssh проблем нет, захожу по беспарольным ключам в обе стороны.

В .bashrc прописано:

export PATH=/opt/ompi/bin/:$PATH 
export LD_LIBRARY_PATH=/opt/ompi/lib/:$LD_LIBRARY_PATH

Ради эксперимента попробовал с обычным openmpi (установив его из репов, не делая update, и поменяв переменные окружения). Результат — тот же самый (mpiexe виснет).

А при тех же настройках на обычных свежеустановленных виртуалках, всё работает прекрасно.

Вопросы:

1 — нужен перечень идей и версий, где искать ошибку.

2 — как и где (логи, сообщения и т.д.) стоит искать сообщения об этой ошибке?

Deleted

Последнее исправление: cetjs2 (всего исправлений: 5)

Вот как это выглядит с опцией -d:

[root@server ~]# mpirun -allow-run-as-root -d -hostfile hostfile hostname
[server:02362] procdir: /tmp/openmpi-sessions-root@server_0/18524/0/0
[server:02362] jobdir: /tmp/openmpi-sessions-root@server_0/18524/0
[server:02362] top: openmpi-sessions-root@server_0
[server:02362] tmp: /tmp
[server:02362] sess_dir_cleanup: job session dir does not exist
[server:02362] procdir: /tmp/openmpi-sessions-root@server_0/18524/0/0
[server:02362] jobdir: /tmp/openmpi-sessions-root@server_0/18524/0
[server:02362] top: openmpi-sessions-root@server_0
[server:02362] tmp: /tmp
[client:06849] procdir: /tmp/openmpi-sessions-root@client_0/18524/0/1
[client:06849] jobdir: /tmp/openmpi-sessions-root@client_0/18524/0
[client:06849] top: openmpi-sessions-root@client_0
[client:06849] tmp: /tmp
[client:06849] sess_dir_cleanup: job session dir does not exist
[client:06849] procdir: /tmp/openmpi-sessions-root@client_0/18524/0/1
[client:06849] jobdir: /tmp/openmpi-sessions-root@client_0/18524/0
[client:06849] top: openmpi-sessions-root@client_0
[client:06849] tmp: /tmp
и дальше ничего не происходит.

Deleted
()
Ответ на: комментарий от AlexVR

Пока только он и есть. В экспериментальных целях. Но на экспериментальных виртуалках от него работает нормально.

Deleted
()
Ответ на: комментарий от AlexVR

есть 3 сетевых интерфейса:

eth0 — через который осуществляется доступ к nfs контроллера, где и находится директория openmpi (первая сеть) (кстати, я устанавливал openmpi и в /opt на каждой ноде, подозревая какие-то проблемы с nfs. Но это не помогло).

eth1 — связь между нодами (вторая сеть)

eth2 — связь между нодами (третья сеть)

Имена хостов прописаны в файле /etc/hosts, который одинаков на обоих узлах:

xx.xx.xx.xx node1-eth1
xx.xx.xx.xx node1-eth2

xx.xx.xx.xx node2-eth1
xx.xx.xx.xx node2-eth2

ssh между нодами работает через eth1 и eth2. А через eth0 они общаются с контроллером.

были подозрения, что openmpi как-то не так воспринимает эти интерфейсы. Но ведь если процесс работает, то он как-то должен это разруливать. firewalld и selinux в принципе отсутствуют.

Вот их настройки:

# eth1
NM_CONTROLLED=no
ONBOOT=yes
PERSISTENT_DHCLIENT=1
TYPE=Ethernet
BOOTPROTO=dhcp
DEFROUTE=yes
IPV4_FAILURE_FATAL=yes
IPV6INIT=no
DEVICE=eth1
NAME=eth1
PEERDNS=yes
PEERROUTES=yes
HWADDR=xx:xx:xx:xx:xx:xx
# eth2
DEVICE=eth2
BOOTPROTO=static
IPADDR=xx.xxx.xxx.x
NETMASK=xxx.xxx.xxx.x
ONBOOT=yes
NM_CONTROLLED=no
Deleted
()
Последнее исправление: Deleted (всего исправлений: 2)
Ответ на: комментарий от AlexVR

Подозреваю NM_CONTROLLED=no. Network Manager выпилен из системы.

Deleted
()
Ответ на: комментарий от Deleted

iptables настроен только на контроллере с nfs (это который работает через eth0)

Deleted
()
Ответ на: комментарий от AlexVR

Я тут зашёл по через eth1 и отключил eth0 и eth2.

Запустил mpiexec из директории openmpi, установленного в /opt на каждой ноде.

Один раз сработало, потом почему-то сеть пропала вообще. Захожу по ssh и любые команды подвисают.

Но один раз вывод hostname'a со второй ноды был. Непосредственно после отключения обоих интерфейсов.

Deleted
()
Последнее исправление: Deleted (всего исправлений: 2)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.