Сабж. Лабораторная работа в универе - реализовать сложение двух массивов с использованием mmx и на чистом си без оптимизаций для сравнения быстродействия. Код в общем-то очевидный, приводить смысла нет, но вот в чем проблема - препод сказал проверять в дебаге, потому что вижак оптимизирует циклы. Проверил, действительно, цикл сложения оптимизирован в sse. Как заставить gcc оптимизировать код так же? Пробовал
-mmmx -O99 -march=native -msse4 -msse4.1 -msse4.2 -msse4a -mfpmath=sse -msse -msse2 -msse3 -m3dnow