Нет, они вполне реально добились качественной работы в общей памяти и показывали великолепные результаты в собственной синтетике. амд-оптимизированные игрушки (DA:I, других не слышал) на apu шли примерно так же, как на десктопной игровой нвидии с тепловыделением в 3-5 раз больше.
Вот только никому не упёрлось переписывать всё под новую задумку не-интела и все эти apu так и остались работать в режиме эмуляции pci видеокарты.
Тормозная даже для их кукурузного фуфыкса
В видеокартах не память принципиально быстрее, там каналов дохрена больше. Они так и пишут, «у нас эквивалент частоты 5Ггц», а не «частота 5Ггц».
Нет, они вполне реально добились качественной работы в общей памяти
Что у тебя значит «качественной работы в общей памяти»? У любой встройки и так общая память с процессором. Память дискретных карт тоже напрямую доступна процессору, пусть и через медленную шину. Что амд нового сделало, кроме маркетинговых заявлений?
показывали великолепные результаты в собственной синтетике
Я щас в своей синтетике тоже что угодно нарисую))) Как там другой регистрант писал, «заменить fpu» opencl не выйдет, fpu это интегрированный сопроцессор, задействуется напрямую из основного потока команд, а отдельное ядро с шаренной памятью это принципиально тормознее и более ограничено, тем более там нужно дёргать драйвер на каждый чих.
амд-оптимизированные игрушки (DA:I
Там mantle был. Да и в любом случае это ничего не доказывает, из достаточно большой выборки игр +-половина быстрее на амд, половина на нвидии.
в режиме эмуляции pci видеокарты
Что-что, простите?
В видеокартах не память принципиально быстрее, там каналов дохрена больше. Они так и пишут, «у нас эквивалент частоты 5Ггц», а не «частота 5Ггц».
Что-то ты фигню сморозил. Количество каналов само по себе ничего не даёт. Они дают повышение пропускной способности, то есть, скорости памяти.
Что амд нового сделало, кроме маркетинговых заявлений?
Вот хотя бы то, как mantle показала себя на моём ноуте в DA:I. Мягко говоря непривычно когда встройка на ноуте перестаёт уступать дискретной nvidia 560ti, уходящей на взлёт и охлаждаемой аэрозольным распылителем.
И вообще, за счёт чего бы если не за счёт оптимального доступа к памяти, 3 низкочастотных ядра встройки могли на равных соперничать с 6 ядрами дискретки с большей частотой, большим теплопакетом и своей собственной выделенной видеопамятью в примерно каждой второй игре на DX или OpenGL? А вот в майнинге всё резко менялось, 6 ядер были ровно в 2,5 раза быстрее чем 3.
Но… Не прижилось. Вскоре появился вулкан и об технологиях не от нвидии или интела все забыли.
а отдельное ядро с шаренной памятью это принципиально тормознее и более ограничено, тем более там нужно дёргать драйвер на каждый чих.
Вот не обязательно. Если всё считать на одном ядре, пусть даже с низкой задержкой, то 1 команду оно конечно сделает быстрее, а вот если собрать пакет из 1000 команд и отдать их одной транзакцией на исполнение сопроцессору, а в это время продолжить выполнять что то другое… Тут результат совершенно очевиден. Главное не забывать, что эта штука требует оптимизации и внимательного отношения.
+-половина быстрее на амд, половина на нвидии.
На проценты, максимум треть. А тут был просто нереальный рывок. Даже 3 года и 1 ступень по техпроцессу в пользу моего ноута даже близко не сопоставлялись с ростом эффективности. Можно конечно предположить, что амд убедило сделать игру с настолько хреновой оптимизацией для всех кроме кучки амдшников…
Что-что, простите?
А общая память apu никак не вписывалась в классические api графики. В том и проблема, что получить доступ надо было каким то хитрым специальным способом.
Количество каналов само по себе ничего не даёт. Они дают повышение пропускной способности, то есть, скорости памяти.
Так всётаки ничего не даёт или повышает пропускную способность памяти? Просто мне кажется очевидным, что через 2 канала можно пропихнуть в 2 раза больше данных чем через 1.
Вот хотя бы то, как mantle показала себя на моём ноуте
за счёт чего бы если не за счёт оптимального доступа к памяти
Да у тебя там процессорная часть кукурузная являлась боттлнеком, а mantle снижало процессорный оверхед. Интел проц+амд дискретка были бы быстрее и без mantle небось.
560ti
Это же ферми, мемный позор нвидии уровня пня4 и фуфыкса.
Вскоре появился вулкан
Вулкан это и есть mantle с доработками. Mantle до прям настоящей низкоуровневости далеко всё равно.
1 команду
Одну команду в реальных задачах и процессорах никто не выполняет.
а вот если собрать пакет из 1000 команд и отдать их одной транзакцией на исполнение сопроцессору, а в это время продолжить выполнять что то другое… Тут результат совершенно очевиден
Не очень понял, что тебе очевидно, но когда ядро нагружено, оно как раз и исполняет «бесконечный» пакет инструкций, и ему в общем-то насрать одно там этими инструкциями делается, или другое(если не считать кэшмиссов). Если для обращения к fpu на уровне отдельных инструкций нужно было бы обращаться к другому ядру - синхронизация заняла бы больше времени, чем сами вычисления, ядра бы тупо простаивали. Так что на практике как раз вычисляют длинные «пакеты» инструкций и стараются синхронизировать ядра как можно меньше. Если в ядре нет fpu - таких крупных пакетов бы не вышло.
А общая память apu никак не вписывалась в классические api графики.
И каким же образом? На тот момент в опенгл давно можно было мапить память и задавать хинты её использования.
Так всётаки ничего не даёт или
Это ты сам определись, ты же писал что память не быстрее, а каналов больше. Можно подумать, сама циферка количества каналов что-то там даёт, а не повышение пропускной способности.
Да у тебя там процессорная часть кукурузная являлась боттлнеком, а mantle снижало процессорный оверхед.
Именно! Интел наверное был бы быстрее, особенно имея 14нм против 32 или 28 в лучшем случае.
синхронизация заняла бы больше времени, чем сами вычисления, ядра бы тупо простаивали.
И тем не менее, пытаться исполнить работу пары сотен сопроцессоров на цпу, да ещё и в одном потоке чтобы не дёргать все эти синхронизации и задержки, почему то давным давно никому в голову не приходят. Почему то всем очевидно, что даже близко не получится.
сама циферка количества каналов что-то там даёт
Сама циферка даёт почти линейный множитель на проопускную способность. Так что уже давно выгодней наращивать число каналов а не гнать частоту. Это настолько очевидно, что никто уже не заявляет что их видеопамять это 8 каналоа по 625Мгц, они указывают эквивалени 5Ггц.
но на практике даже всякие aes, sha, RDRAND вcтраивают прямо в ядро на уровне команд.
А графические сопроцессоры, число ядер которых уже давно считается сотнями и которые именно что дёргаются с цпу и получают команды на некие операции? Почему никто не считает графику этими замечательными векторными инструкциями на современных цпу прямо в общем непрерывном потоке команд?
на дешёвых видеокартах как раз 1-2канала, и память там быстрее только благодаря QDR и частоте.
В затычках, кторые обычно 1/8 или 1/16 от старшей видеокарты? Да, вероятно так и есть. Ну так они обычно и работают на уровне интеграшки, ограниченной двухканальной оперативкой.
Для отрисовки рабочего стола, например, и проц сойдёт.
Разработчики современного десктопа с вами не согласны. Правда у них чего то обычно тормозит…
Но это не меняет факта: если объём работ чуть возрастает, то уже выгодней выпихнуть их из потока цпу куда нибудь. И если работы много тем лучьше, если этобудет вообще не цпу.
Да не, и в тех, которые побыстрее интеграшки бывает то же самое.
Так не намного побыстрее. А так да, пусть те же 2 канала, зато свои, выделенные и оптимизированные. Ну и частоты можно приподнять чтобы карта выглядела приличней.