Core2Duo FPU speed

0

0

Может кому интересно будет. Недавно опять начал писать под PC платформу, алгоритм с интенсивными вычислениями матриц - и выяснились интересные факты про производительность Core2Duo.

Вобщем, блок Floating Point реализован в нём просто отлично - с GCC получается, что принудительное использование SSE регистров вместо FP сопроцессора понижает скорость на ~20-30%; а переключение с типа float на тип long вообще не дало повышения производительности :-O Отличный процессор от Intel, наконец-то у них получилось :)

Ссылка

← странная ругань на указатель

[c++] reflection →

По-моему у них он там даже не один :)

~~Legioner~~ ★★★★★
(18.05.08 07:42:43 MSK)

Ссылка

А может быть не Core2Duo, а gcc-developers?

anonymous
(18.05.08 11:17:26 MSK)

Ссылка

а с чего вы взяли, что виноват процессор? ;)
может дело в коде...
почитайте А. Фога

rei3er ★
(18.05.08 11:21:53 MSK)

Ответ на: комментарий от rei3er 18.05.08 11:21:53 MSK

Я уверен в том что виноват не процессор. Все дело в коде. SSE как раз наиболее эффективен в матричных вычислениях, ни один компилятор не способен сделать оптимизации эффективнее чем программист на асме.
http://democoder.ru/article/13

koTuk ☆
(18.05.08 13:18:03 MSK)

Ссылка

Ответ на: комментарий от rei3er 18.05.08 11:21:53 MSK

> а с чего вы взяли, что виноват процессор?

разве топикстартер _обвинял_ процессор?

ИМХО весь его спич был про то, как в нем хорошо реализована обычная float арифметика без SSE.

dilmah ★★★★★
(18.05.08 13:23:52 MSK)

Ответ на: комментарий от dilmah 18.05.08 13:23:52 MSK

>весь его спич был про то, как в нем хорошо реализована обычная float арифметика без SSE.

Она хорошо реализована уже начиная с 80287 в прошлом тысячелетии...

koTuk ☆
(18.05.08 13:51:31 MSK)

Ссылка

>Вобщем, блок Floating Point реализован в нём просто отлично - с GCC получается, что принудительное использование SSE регистров вместо FP сопроцессора понижает скорость на ~20-30%; а переключение с типа float на тип long вообще не дало повышения производительности :-O

Яркий пример кроссплатформенного программирования без учета особенностей целевого процессора, такой код обречен на медленную работу.

koTuk ☆
(18.05.08 15:27:40 MSK)

Ссылка

Где-то на форуме gentoo пробегало, что с gcc вообще не рекомендуется использовать -mfpmath=sse, причем кажется это связано с glibc. Интересно было бы проверить скорость работы того же кода, но скомпилированного интеловским icc с -xP или -xT.

octy ★★
(18.05.08 19:12:00 MSK)

Ответ на: комментарий от octy 18.05.08 19:12:00 MSK

Небольшое сравнение - судя по нему разница в районе 10% на мультимедиа
http://blog.alphagemini.org/2008/03/icc-vs-gcc-43.html

koTuk ☆
(18.05.08 20:57:41 MSK)

Ссылка

>а переключение с типа float на тип long вообще не дало повышения производительности

А почему должно?

madcore ★★★★★
(19.05.08 10:11:27 MSK)

Ссылка

Потому что код для SSE* надо писать ручонками на ассемблере, а не полагатся на то что наоптимизировал компилятор.

P.S.: Простейшее преобразование rgb2yuv422 - fpu - кадр 1920x1080 обрабатывается почти две минуты (!). Инты со сдвигами - минуту. Ассемблерная функция с SSE2 - 2 секунды. При этом в первом случае различные -ftree-vectorize и -mfpmath=sse ни к чему не приводят, как тормозило так и тормозит.

svr4 ☆
(20.05.08 16:14:45 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← странная ругань на указатель

Development

[c++] reflection →

Похожие темы