Вот заинтересовался, пока только теоретически, вопросом вычислений на видокартах. Интересен вопрос об «ускорении» стандартных библиотек blas fftw lapack. Правильно ли я понял, что nvidia предлагает переписать программу для расчета (к примеру орбиталей молекулы) заново, но с использованием их супер языка cuda. В то время как при использовании продукции amd можно просто слинковать старую программу не со стандартной реализацией blas, а с их реализацией из пакета acml, при этом если хочется считать еще и на карточке то нужно дополнительно поставить acml-gpu.?
И если все так в теории, то как оно на практике?