История изменений
Исправление shkolnick-kun, (текущая версия) :
замахиваться на то, чтобы обогнать вендорский BLAS на всех платформах без использования ассемблерных вставок - чересчур оптимистично
Там, где это должно будет работать, не то что BLAS, там даже стандартной библиотеки может не быть. Ну и см. пункт про переносимость.
Я почти уверен, что с -O3 статистически значимой разницы между двумя вариантами кода может не оказаться.
Тут пишут как во втором случае.
Я хочу понять, какая от этого польза в случае хитрого компилятора, который может делать SIMD, или какая от этого польза в случае, если перед внешним циклом вставить #pragma omp parallel for ?
Исправление shkolnick-kun, :
замахиваться на то, чтобы обогнать вендорский BLAS на всех платформах без использования ассемблерных вставок - чересчур оптимистично
Там, где это должно будет работать, не то что BLAS, там даже стендартной библиотеки может не быть. Ну и см. пункт про переносимость.
Я почти уверен, что с -O3 статистически значимой разницы между двумя вариантами кода может не оказаться.
Тут пишут как во втором случае.
Я хочу понять, какая от этого польза в случае хитрого компилятора, который может делать SIMD, или какая от этого польза в случае, если перед внешним циклом вставить #pragma omp parallel for ?
Исходная версия shkolnick-kun, :
замахиваться на то, чтобы обогнать вендорский BLAS на всех платформах без использования ассемблерных вставок - чересчур оптимистично
Там, где это должно будет работать, не то что BLAS, там даже стендартной библиотеки может не быть. Ну и см. пункт про переносимость.
Я почти уверен, что с -O3 статистически значимой разницы между двумя вариантами кода может не оказаться.
Тут пишут как во втором случае.
Я хочу понять, какая от этого польза в случае хитрого компилятора, который может делать SIMD, или какая от этого польща в случае, если перед внешним циклом вставить #pragma omp parallel for ?