LINUX.ORG.RU
ФорумAdmin

ПО не видит RDMA-устройство

 


0

1

Программа StarCCM+, ранее работавшая на другом кластере, не может соединится с RDMA-устройством. Часть вывода:

Starting STAR-CCM+ parallel server
starccm+: Rank 0:239: MPI_Init: ibv_poll_cq(2824): wrong status 12
starccm+: Rank 0:228: MPI_Init: ibv_poll_cq(2824): wrong status 12
starccm+: Rank 0:239: MPI_Init: ibv_ring_all2all() failed
starccm+: Rank 0:228: MPI_Init: ibv_ring_all2all() failed
starccm+: Rank 0:239: MPI_Init: Internal Error: Processes cannot connect to rdma device
starccm+: Rank 0:228: MPI_Init: Internal Error: Processes cannot connect to rdma device

Переменная

I_MPI_DAPL_PROVIDER_LIST=ofa-v2-mlx4_0
не срабатывает. Предположил, что причина может крыться в неверном имени RDMA-устройства, но файл
/etc/dat.conf
отсутствует, хотя пакет dapl установлен.

ОС - CentOS 6.8, поддержка IB установлена «из коробки»:

yum -y groupinstall "Infiniband Support"


Почему вы решили, что ваш софт использует uDAPL??? По названиям функций, так обычный ibverbs. Проверяйте правильность настройки OFED или что там по групповой установке в centos устанавливается. Если администратором для кластера написано user guide, то лучше сразу с этим источником ознакомиться.

gvtlor
()
Ответ на: комментарий от gvtlor

Почему вы решили, что ваш софт использует uDAPL???

Использует, так как на другом кластере эта переменная определена (два RDMA устройства). Администратор я. OFED поставить не получается, так как железо очень старое на паре узлов.

NOPA
() автор топика
Ответ на: комментарий от NOPA

Если вы администратор, значит вам должны быть доступны команды ibv_devinfo, ibstatus, показывающие состояние RDMA устройств. Если они ничего не выводят, значит что-то не так с железом, драйверами, установкой «Infiniband Support». Не знаю как в 6.8, в 7.0 должен быть запущен rdma.service

gvtlor
()
Ответ на: комментарий от gvtlor

В том-то и дело, что все тесты, которые, например, перечислены здесь, кластер проходит. У меня два варианта, почему:

1) не настроен DAPL. Вопрос: а что создаёт файл /etc/dat.conf ? Может, что-то нужно доставить?

2) OFED «из коробки» слишком старый. Буду пробовать настроить, если не получится с вариантом 1.

NOPA
() автор топика
Ответ на: комментарий от gvtlor

Спасибо, не догадался туда сразу посмотреть :) Есть там файл. Похоже, OFED не подходит, так как имя устройства в переменной я правильно задавал. Жаль.

NOPA
() автор топика
Ответ на: комментарий от NOPA

так как имя устройства в переменной я правильно задавал.

I_MPI - это переменные, которые относятся к Intel MPI, может он неправильно установлен??

имя устройства=mlx4_0 - такое есть устройство?? у вас карточки не двухпортовые?? может номер порта еще надо добавить??

gvtlor
()
Ответ на: комментарий от gvtlor

I_MPI - это переменные, которые относятся к Intel MPI, может он неправильно установлен??

Там в комплекте с программой идёт.

имя устройства=mlx4_0 - такое есть устройство?? у вас карточки не двухпортовые??

Однопортовые.

NOPA
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.