История изменений
Исправление Deleted, (текущая версия) :
есть 3 сетевых интерфейса:
eth0 — через который осуществляется доступ к nfs контроллера, где и находится директория openmpi (первая сеть) (кстати, я устанавливал openmpi и в /opt на каждой ноде, подозревая какие-то проблемы с nfs. Но это не помогло).
eth1 — связь между нодами (вторая сеть)
eth2 — связь между нодами (третья сеть)
Имена хостов прописаны в файле /etc/hosts, который одинаков на обоих узлах:
xx.xx.xx.xx node1-eth1
xx.xx.xx.xx node1-eth2
xx.xx.xx.xx node2-eth1
xx.xx.xx.xx node2-eth2
ssh между нодами работает через eth1 и eth2. А через eth0 они общаются с контроллером.
были подозрения, что openmpi как-то не так воспринимает эти интерфейсы. Но ведь если процесс работает, то он как-то должен это разруливать. firewalld и selinux в принципе отсутствуют.
Вот их настройки:
# eth1
NM_CONTROLLED=no
ONBOOT=yes
PERSISTENT_DHCLIENT=1
TYPE=Ethernet
BOOTPROTO=dhcp
DEFROUTE=yes
IPV4_FAILURE_FATAL=yes
IPV6INIT=no
DEVICE=eth1
NAME=eth1
PEERDNS=yes
PEERROUTES=yes
HWADDR=xx:xx:xx:xx:xx:xx
# eth2
DEVICE=eth2
BOOTPROTO=static
IPADDR=xx.xxx.xxx.x
NETMASK=xxx.xxx.xxx.x
ONBOOT=yes
NM_CONTROLLED=no
Исправление Deleted, :
есть 3 сетевых интерфейса:
eth0 — через который осуществляется доступ к nfs контроллера, где и находится директория openmpi (первая сеть)
eth1 — связь между нодами (вторая сеть)
eth2 — связь между нодами (третья сеть)
Имена хостов прописаны в файле /etc/hosts, который одинаков на обоих узлах:
xx.xx.xx.xx node1-eth1
xx.xx.xx.xx node1-eth2
xx.xx.xx.xx node2-eth1
xx.xx.xx.xx node2-eth2
ssh между нодами работает через eth1 и eth2. А через eth0 они общаются с контроллером.
были подозрения, что openmpi как-то не так воспринимает эти интерфейсы. Но ведь если процесс работает, то он как-то должен это разруливать. firewalld и selinux в принципе отсутствуют.
Вот их настройки:
# eth1
NM_CONTROLLED=no
ONBOOT=yes
PERSISTENT_DHCLIENT=1
TYPE=Ethernet
BOOTPROTO=dhcp
DEFROUTE=yes
IPV4_FAILURE_FATAL=yes
IPV6INIT=no
DEVICE=eth1
NAME=eth1
PEERDNS=yes
PEERROUTES=yes
HWADDR=xx:xx:xx:xx:xx:xx
# eth2
DEVICE=eth2
BOOTPROTO=static
IPADDR=xx.xxx.xxx.x
NETMASK=xxx.xxx.xxx.x
ONBOOT=yes
NM_CONTROLLED=no
Исходная версия Deleted, :
есть 3 сетевых интерфейса:
eth0 — через который осуществляется доступ к nfs контроллера, где и находится директория openmpi (первая сеть)
eth1 — связь между нодами (вторая сеть)
eth2 — связь между нодами (третья сеть)
Имена хостов прописаны в файле /etc/hosts, который одинаков на обоих узлах:
xx.xx.xx.xx node1-eth1
xx.xx.xx.xx node1-eth2
xx.xx.xx.xx node2-eth1
xx.xx.xx.xx node2-eth2
ssh между нодами работает через eth1 и eth2. А через eth0 они общаются с контроллером.
были подозрения, что openmpi как-то не так воспринимает эти интерфейсы. Но ведь если процесс работает, то он как-то должен это разруливать. firewalld и selinux в принципе отсутствуют.
Вот их настройки:
NM_CONTROLLED=no
ONBOOT=yes
PERSISTENT_DHCLIENT=1
TYPE=Ethernet
BOOTPROTO=dhcp
DEFROUTE=yes
IPV4_FAILURE_FATAL=yes
IPV6INIT=no
DEVICE=eth1
NAME=eth1
PEERDNS=yes
PEERROUTES=yes
HWADDR=xx:xx:xx:xx:xx:xx
DEVICE=eth2
BOOTPROTO=static
IPADDR=xx.xxx.xxx.x
NETMASK=xxx.xxx.xxx.x
ONBOOT=yes
NM_CONTROLLED=no