Разница в производительности CUDA на одинаковом железе на двух разных системах
У меня есть 2 машины с абсолютно одинаковым железом. На одной из машин установлен Debian, на второй кастомный дистрибьютив собранный с помощью buildroot.
Я испытываю следующую проблему:
Мое CUDA приложение работает в 2 раза быстрее на машине с Debian, чем на машине с кастомным дистрибьютивом.
Я пытаюсь понять что может служить причиной этой разницы.
CUDA: 7.5
Drivers:
Debian: 361.28
Custom: 367.27
Информация которая возможно релевантна:
Если я запускаю deviceQuery (из самлов куды) на обеих машинах, результаты почти но не полностью одинаковы:
1я разница:
Debian:
Total amount of global memory: 3069 MBytes
Custom:
Total amount of global memory: 3008 MBytes
(Хотя я сомневаюсь что это может быть причиной разницы в производительности)
Другое отличие:
Debian:
Run time limit on kernels: Yes
Custom:
Run time limit on kernels: No
Если я запускаю bandwidthTest из самплов, результаты более-менее одинаковы для Host to Device Bandwidth, 1 Device(s) и Device to Host Bandwidth, 1 Device(s), но могут заметно отличатся для Device Bandwidth, 1 Device(s).
Для последнего пункта Debian выдает результаты в раене 100k MB/s (хотя иногда падает до 63к).
Для Custom - оно постоянно на уровне 63к.
Еще интересный факт:
Я пробовал запускать Xserver на кастомной системе используя nvidia для этого. Сервер полностью не запускается (но и не крешится). Если я запускаю мое приложение когда сервер находится в таком состоянии - производительность падает еще в 2 раза.
(Запуск Х на дебиане с nvidia не влияет особо на производительность)
Буду благодарен за помощь и идеи куда копать.