LINUX.ORG.RU
ФорумTalks

[intel][amd][bulldozer] частота ядра и скорость последовательного доступа не важна — важна скорость произвольного доступа к памяти

 ,


0

2

я говорю о важности с точки зрения десктопного применения и визуальной оценки скорости работы компа

можно глянуть например сюда http://www.roylongbottom.org.uk/randmem results.htm#anchorRAM2 и вспомнить о том, что Пентиум М был лидером до Core 2 Duo по визуальным оценками — что явно видно в таблице

понятно, что и скорость последовательного доступа тоже играет некоторую роль, но похоже она делит 2-е место со скоростью проца

теперь к бульдозеру и сравнению его с интелом http://www.fcenter.ru/online.shtml?articles/hardware/processors/32091 (но можно сразу смотреть только картинку http://www.fcenter.ru/img/article/CPU/Bulldozer/178218.png )

смотрим и ужасаемся

латентность кэшей 1, 2 и 3-го уровней повышена, и насколько!!!

как раз настолько, чтобы обеспечить то самое «на одинаковой частоте удельная производительность Bulldozer в пересчёте на ядро упала на 25-40 % по сравнению с микроархитектурой AMD прошлого поколения»

особенно хреново с латентностью кэша Л2 — она увеличилась более чем в 2 раза

выводы (говорю, как сочувствующий амд):

1. амд обосралось

2. у них может быть есть шансы исправить ситуацию, выпустив феномы на старой архитектуре с ТУПО бОльшим количеством кэша, которое позволяет 32-нм технология (это помогает быстродействию)

( 3. амд как, не собирается прекратить выпуск старых феномов? а не закупить ли феномчик на замену, на случай если мой сгорит? )

UPDATE: для веб-серверного применения 8 типа-вроде-ядер может быть и хорошо, но опять нужна скорость произвольного доступа к памяти; ну и не забываем, что современную RAM по факту нужно считать Sequential Access Memory

★★★★★

Последнее исправление: www_linux_org_ru (всего исправлений: 2)

> латентность кэшей 1, 2 и 3-го уровней повышена, и насколько!!!
rtfm: http://support.amd.com/us/Processor_TechDocs/48063.pdf

550 Latency Performance Counters Are Not Accurate
Description
Latency performance counters NBPMCx1E2 through NBPMCx1E7 are not accurate when L3 speculative miss
prefetching is enabled (D18F2x1B0[13] = 0b, Extended Memory Controller Configuration Low[SpecPrefDis]).
Potential Effect on System
Performance monitoring software cannot accurately measure latency events. The reported latency may greatly
exceed the actual latency in some instances.
Suggested Workaround
No workaround is recommended. Performance monitoring code may set D18F2x1B0[13] = 1b to collect
accurate latency values. This workaround has an impact to overall system performance.
Fix Planned
No fix planned

JustGuest
()

> у них может быть есть шансы исправить ситуацию, выпустив феномы на старой архитектуре с ТУПО бОльшим количеством кэша, которое позволяет 32-нм технология (это помогает быстродействию)

И как это они без тебя не догадались.

Relan ★★★★★
()

[intel][amd][bulldozer] Технические характеристики не важны, важно ощущение ШВАБОДКИ!

Можно же было короче и лаконичнее.

Lighting ★★★★★
()

>амд обосралось

И что? Я не делаю из компьютерных комплектующих культ, дабы затем подвергать нападкам хулителей его богов.

Nebuchadnezzar ★★★★
()

> Технические характеристики не важны, важно ощущение ШВАБОДКИ!

ты идиот, или только прикидываешься?

есть много характеристик, и из часть влияет сильнее, а часть слабее — так что в введении я приблизительно их сортирую, а затем на этой основе сравниваю процы

если у тебя есть конкретный класс программ, которым поможет бОльший, но тормознутый кэш Л2 — поделись, не стесняйся

кстати, линейная скорость записи в Л2 тоже упала по тем данным

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от JustGuest

> 550 Latency Performance Counters Are Not Accurate

интересно

не знаю как там Aida64 меряет латентность, а я бы мерил не через счетчики, а рандомным проходом по памяти

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от Relan

> И как это они без тебя не догадались.

мне тоже интересно; у тебя есть гипотезы?

з.ы. а вообще случаев выпуска говна хватает — вспомним например пентиум 4

www_linux_org_ru ★★★★★
() автор топика

если у тебя есть конкретный класс программ, которым поможет бОльший, но тормознутый кэш Л2, и заодно уменьшение L1D с 64 до 16 Кбайт  — поделись, не стесняйся

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от www_linux_org_ru

Это был сарказм. И вообще, мы же сугубо десктопный процессор обсуждаем, разве для него важна не реальная производительность на реальных же задачах?

Lighting ★★★★★
()
Ответ на: комментарий от Lighting

> Это был сарказм. И вообще, мы же сугубо десктопный процессор обсуждаем, разве для него важна не реальная производительность на реальных же задачах?

щас придется выступить в роли К.О.

да, конечно, но

1. задач много

2. средняя производительность зависит от набора задач

3. реальная производительность зависит от поддержки микроархитектуры компилятором

и самое главное (это уже не К.О.)-- для разработчика программ важно хотя бы приблизительно сводить огромное множество разнообразных производительностей разнообразных программ к нескольким, а то и одной, характеристике, которая является bottleneck-ом современных компьютеров

что я и пытаюсь тут сделать (и оценить влияние бульдозера на bottleneck-и)

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от GateKeeper

> Ура штеуд. Позор фьв! Делать-то что? Срочно покупать штеудовское тормозное гогно?

я бы продолжил покупать феном II для бюджетных решений, и интел для топовых

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от www_linux_org_ru

> для разработчика программ важно хотя бы приблизительно сводить огромное множество разнообразных производительностей разнообразных программ к нескольким, а то и одной, характеристике, которая является bottleneck-ом современных компьютеров

для веб-серверного применения... нужна скорость произвольного доступа к памяти

есть пруфы/тесты/статьи о влиянии произвольного доступа к памяти на ВСЕ или хотя бы большинство реальных задач? потому что если это сводится только к скорости и размеру кеша, то от него, судя по тестам кешелюбивых программ, не так много зависит... да, всякие корелы, фотожопы несомненно, но их и компилят под штеуд штеудовским же компилятором, так что там уже условия неравные, а что-то более привычное и земное типа браузеров уже хз...

Lordwind ★★★★★
()
Ответ на: комментарий от Lordwind

> есть пруфы/тесты/статьи о влиянии произвольного доступа к памяти на ВСЕ или хотя бы большинство реальных задач?

вроде как все об этом говорят... но пруф с точными данными мне неизвестен

интересно было бы точно посимулировать время отклика программы в зависимости от кэшей

могу дать только стандартный текст на тему памяти http://lwn.net/Articles/252125/

www_linux_org_ru ★★★★★
() автор топика

Подтверждаю.

После Athlon XP 2500+ мне не понравился ни один ИХ проц. Ощущение того, что повысилась общая латентность системы. Куда дели Athlon XP 3200+ — ОЧЕНЬ БОЛЬШАЯ ЗАГАДКА. До сих пор он бы оставался лучшим одноядерным CPU для архитектуры [i386].

Купил Athlon X2 3800+, потом купил Athlon X2 5400+ — никакого улучшения в ответной реакции не заметил, только выросло тепловыделение до 90 Вт, хотя заявлен TDP=65W.

Далее, поменял материнку (была с DDR2, стала с DDR3), купил процессор Phenom II X4 810. Ну не стоит он того, чтобы отказываться от Athlon X2 5400+!!

iZEN ★★★★★
()

Ну вроде бульдозер изначально выглядел странно. Так что тут ничего удивительного нет. Но продадут, если маркетологи не сопьются.

Последний проц от АМД, который я купил это Phenom II X4 965. Мне он понравился.

soomrack ★★★★★
()

Вывод: мои атлон2 x3, x2 и семпрон (обрезок от них же) - самые быстрые процессоры. А что, латентность доступа ниже (кэша L3 вообще нет), при быстрой памяти совсем неплохо.

В общем, выдыхай.

x3al ★★★★★
()
Ответ на: комментарий от x3al

> при быстрой памяти совсем неплохо

выходи из анабиоза

быстрой RANDOM access memory нет! (ну есть, но не для обычных компов)

максимум, на что ты можешь рассчитывать — это на 500 МБ/с, и это на Core i7

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от www_linux_org_ru

Эм. У них случайный доступ к памяти быстрее, чем у феномов. Ты будешь утверждать, что феномы медленнее? =)

А вообще — да, есть такое с объектно-ориентированным быдлокодом. И вообще, многие кодеры заранее думают о cache-friendly расположении структур/объектов в RAM. Думаешь, к бенчмаркам это не относится?

x3al ★★★★★
()

Закупи лучше Sandy Bridge.

mv ★★★★★
()
Ответ на: комментарий от x3al

> Эм. У них случайный доступ к памяти быстрее, чем у феномов. Ты будешь утверждать, что феномы медленнее?

да, буду — феномы медленнее в 1.5 ... 2 раза, но стоят дешевле в несколько раз

у нас все точно (с) робот-официант в ответ громозеке

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от GateKeeper

Ура штеуд. Позор фьв! Делать-то что? Срочно покупать штеудовское тормозное гогно?

Если только на свалке. В магазинах продают штеудовские jet fighter'ы.

У них в эволюции линейки x86, по крайней-мере, заметный просёр на концептуальном уровне был только один: netburst.

mv ★★★★★
()
Ответ на: комментарий от www_linux_org_ru

интересно было бы точно посимулировать время отклика программы в зависимости от кэшей

Вы ставите интерактивность программы в зависимость от скорости и размеров кэшей? o_O Такой зависимости, видимой человеку, нет.

mv ★★★★★
()
Ответ на: комментарий от mv

> Вы ставите интерактивность программы в зависимость от скорости и размеров кэшей? o_O Такой зависимости, видимой человеку, нет.

эклипс не запускал ни разу что ли?

жабка она любит тормозить, и кэш ей ой-ой-ой как нужен

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от mv

> У них в эволюции линейки x86, по крайней-мере, заметный просёр на концептуальном уровне был только один: netburst.

обрати внимаение — пентиум 4 на 1900 МГц рандомно читал память медленнее, чем Celeron A на 300 МГц !!!

так что это еще раз подтверждает мою гипотезу

http://www.roylongbottom.org.uk/randmem results.htm#anchorRAM

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от mv

> Такой зависимости, видимой человеку, нет.

ну и кроме того: когда например мплеер в консоли показывает десятые доли секунды, я вижу их все, и чувствую между ними некоторый промежуток

возможно, другие это не видят, но за всех людей говорить не надо

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от mv

> У них в эволюции линейки x86, по крайней-мере, заметный просёр на концептуальном уровне был только один: netburst.

можно сравнить похожее: Pentium 4 1900 рандомно читал втрое медленне и рандомно писал вдвое медленне, чем Pentium IIIEB 1000 — и это на одной и той же памяти 133 MHz

так что видно корреляцию между говном и тормозами рандомного доступа

http://www.roylongbottom.org.uk/randmem results.htm#anchorRAM

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от mv

> Вы ставите интерактивность программы в зависимость от скорости и размеров кэшей? o_O Такой зависимости, видимой человеку, нет.

не просто есть, а именно из-за нее фаерфокс *несколько лет* никак не могут перенести на мобильные/карманные компы

он (точнее xul) там СТРАШНО тормозит, даже будучи жутко обрезан

при том, что на 600-МГц компах он работал вполне приемлемо в *полной* версии

почему? вспоминаем объем кэша (хотя может и не только)

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от www_linux_org_ru

обрати внимаение — пентиум 4 на 1900 МГц рандомно читал память медленнее, чем Celeron A на 300 МГц !!!

Читать память медленней контроллер памяти не может. У netburst очень длинный конвейер с соответствующим очень большим пенальти в случае промаха предсказателя.

mv ★★★★★
()
Ответ на: комментарий от www_linux_org_ru

ну и кроме того: когда например мплеер в консоли показывает десятые доли секунды, я вижу их все, и чувствую между ними некоторый промежуток

За десятую долю секунды двухгигагерцовый процессор выполнит порядка сотен миллионов микроопераций. Шанса у человек из-за медленного кэша заметить увеличение латентности нет.

mv ★★★★★
()
Ответ на: комментарий от www_linux_org_ru

почему? вспоминаем объем кэша (хотя может и не только)

Вы переоцениваете значение кэша. Гораздо важнее кэша эффективность кишков процессора, его тактовая частота и объём доступной памяти.

mv ★★★★★
()
Ответ на: Подтверждаю. от iZEN

> Куда дели Athlon XP 3200+ — ОЧЕНЬ БОЛЬШАЯ ЗАГАДКА.

3200+ не нужен. Берем 2500+, сажаем на 200-ю шину и получаем 3200+. Все так и делали, потому младший Barton и был так популярен.

YAR ★★★★★
()
Ответ на: комментарий от mv

> Читать память медленней контроллер памяти не может. У netburst очень длинный конвейер с соответствующим очень большим пенальти в случае промаха предсказателя.

конвеер, пенальти...

не будь Ъ, сходи по ссылке и посмотри randmem.c (в архиве) — там действительно просто обход памяти, и промах предсказателя будет 1 раз в 500 случаев или еще реже

интел обосрался, причем так же, как щас амд — то есть по-детски, и придумывает для этого разные умные оправдания...

«длинный конвеер», $#@

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от mv

для Ъ:

( arraymax = 1536 )

int testIIR(int jmax, int arraymax)    
{
    int i, j;
    int toti;
    
    start_time();
    
    for (j=0; j<jmax; j++)
    {
        toti = 0;
        for (i=0; i<arraymax; i=i+32)
        {
            toti = toti & xi[xi[i+30]] | xi[xi[i+28]]
                        & xi[xi[i+26]] | xi[xi[i+24]]
                        & xi[xi[i+22]] | xi[xi[i+20]]
                        & xi[xi[i+18]] | xi[xi[i+16]]
                        & xi[xi[i+14]] | xi[xi[i+12]]
                        & xi[xi[i+10]] | xi[xi[i+ 8]]
                        & xi[xi[i+ 6]] | xi[xi[i+ 4]]
                        & xi[xi[i+ 2]] | xi[xi[i+ 0]];
        }
    }
    end_time();
        
    return toti;
}
www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от mv

конвеер у него, $#@, длинный

ты посмотри сколько чтений он делает в секунду — всего лишь 12М штук ( = 48MБайт/4 байта)

т.е. одно чтение занимает 150 тиков частоты 1900 МГц

за эти 150 тиков можно, $#@, любой конвеер перезапустить

твой предсказатель может на for-e КАЖДЫЙ раз промахиваться, и перезапускать конвеер, и это все равно не объяснит таких тормозов

www_linux_org_ru ★★★★★
() автор топика

Где-то в книжках Таненбаума говорилось, что каждый следующий метр кеша все меньше и меньще влияет на скорость выполнения программы.

DarkAmateur ★★★★
()
Ответ на: комментарий от www_linux_org_ru

твой предсказатель может на for-e КАЖДЫЙ раз промахиваться, и перезапускать конвеер, и это все равно не объяснит таких тормозов

Мне почему-то кажется, что ты имеешь весьма отдалённое представление о том, как работает конвейер и предсказатель у netburst.

mv ★★★★★
()
Ответ на: Подтверждаю. от iZEN

>После Athlon XP 2500+ мне не понравился ни один ИХ проц. Ощущение того, что повысилась общая латентность системы

потому что потом все камни были с QnC, не?

nu11 ★★★★★
()
Ответ на: комментарий от mv

> Ты действительно думаешь, что это «просто» обход памяти?

а у тебя в голове ИИ или мозги?

там действительно есть несколько операций — на каждый терм вида xi[xi[i+12]] приходится максимум 3 сложения (ну пусть 5 при -О0) и одна логическая операция

в сумме получаем 6 простых операций, которые пень должен выполнять емнип за 3 тика — ну пусть даже за 10 тиков — а теперь скажи, куда деваются остальные 140 тиков?

З.Ы. я подробно не анализировал код, но мне *кажется*, что внутренняя операция xi[i+12] выполняется из L1D, и разработчик не считает ее обращением к памяти; если же я не прав, тогда разрабочик считает, что каждый терм xi[xi[i+12]] содержит 2 обращения к памяти, значит расходует 300 тиков, и тебе придется объяснять, куда уходят 290 тиков

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от mv

> Мне почему-то кажется, что ты имеешь весьма отдалённое представление о том, как работает конвейер и предсказатель у netburst.

всем пофиг

ты лучше объясни мне, причем тут конвеер, если Pentium III EB 1000 выполняет этот код в 3 (три!!!) раза быстрее, чем Pentium 4 1900 ?

www_linux_org_ru ★★★★★
() автор топика

Я с этим согласен, да и всегда так было, что чем больше кэш, тем больше скорость.

ZenitharChampion ★★★★★
()
Ответ на: Подтверждаю. от iZEN

Попробовал Athlon 550 MHz в 2000 году, был в восторге. Там кеш 512 килобайтов. Потом были маленькие атлоны, не слотовые, а сокетовые, а также дюроны. У первых был 256 килобайт кеш, у вторых - 128. В магазине мне объясняли «куда тебе так много?! 512 только для серверных процессоров делают!». В итоге Duron 700 MHz во всех тестах проигрывал слотовому атлону 550 MHz, кроме того мой любимый Morrowind на 550 МГц летал (тестировались на одной видеокарте).

ZenitharChampion ★★★★★
()
Ответ на: комментарий от mv

> Мне почему-то кажется, что ты имеешь весьма отдалённое представление о том, как работает конвейер и предсказатель у netburst.

ключевое слово — «почему-то»

конвейер и предсказатель у вменяемого процессора не должны сбрасываться иначе, как на командах передачи управления (да и то не на всех)

сколько ты там видишь команд передачи управления на 1 команду доступа к памяти?

я вижу 0.06 команд передачи управления на 1 команду доступа к памяти, (или даже 0.03)

какова вероятность неправильного предсказания? порядка 0.02 (ну может 0.06 на самый худший случай)

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от ZenitharChampion

тут конечно кэш в 2 раза стал больше, но зато и тормознулся по скорости в 2 раза (про что собственно я и ужасаюсь)

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от www_linux_org_ru

Этому все ужасаются. Потом в журнале ЖЕЛЕЗО напишут те ограниченные виды операций, на который топовый Buldozer уделывает топовый Phenom. :-(

ZenitharChampion ★★★★★
()
Ответ на: комментарий от www_linux_org_ru

s/по скорости/по времени произвольного доступа/

но на десктопной практике это почти одно и то же

www_linux_org_ru ★★★★★
() автор топика
Ответ на: комментарий от ZenitharChampion

по тем тестам, которые сделал фцентр (ссылка в треде здесь), бульдозер практически везде сливает коре-и5-2500

www_linux_org_ru ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.