Опять про Inel HT vs AMD

0

2

На лоре во многократных срачах на тему процессоров не раз высказывались мысли о том, что амдшные бульдозеры и остальное - многоядерное это как бы интеловский НТ, только иначе маркетологи обозвали.

Где-то я читал, что у процов штеуда с НТ некие блоки специально для НТ созданы. Т.к. тоже как бы модульная система «это на пару „ядро и виртуальное ядро“ общее, а вот это только у реального ядра».

Насколько правомерно предположение о том, что если задача проседает на интеле от включения НТ, то нет особого смысла браться за 16-ядерный оптерон (вместо 8ядерного зиона)?

Ясень пень, что это вилами по воде и их нельзя сравнивать напрямую. Но я про саму тенденцию.

Ссылка

←	Сегалович всё

Где купить такой блокнот?

→

Если нагрузка на FPU, будет аналогичное HT поведение, т.к. FPU на модуль - один. Понятно, что разница будет, но тенденция такая.

pekmop1024 ★★★★★
(28.07.13 14:19:35 MSK)

Насколько правомерно предположение о том, что если задача проседает на интеле от включения НТ,

Это зависит от того, какая задача и где у неё узкое место. Корреляция может быть как прямой, так и обратной.

~~zgen~~ ★★★★★
(28.07.13 14:22:44 MSK)

Ссылка

Ответ на: комментарий от pekmop1024 28.07.13 14:19:35 MSK

Покумекай еще вот над чем:

2 зиона по 8 ядер. Отключаем по 4 ядра в каждом. остается 8 ядер (НТ отключен). считаем.

потом вынимаем один процессор. на отавшемся включаем все 8 ядер. считаем.

смотрим результат - один процессор о 8 ядрах - быстрее двух по 4.

о чем это говорит? говно линк между горшков?

~~dk-~~ ☆
(28.07.13 14:23:10 MSK) автор топика

Ответ на: комментарий от dk- 28.07.13 14:23:10 MSK

Латентность линка между процессорами всегда будет больше. Еще там наверняка возрастает латентность памяти, т.к. контроллеров два в случае двух процессоров и им надо договариваться.

pekmop1024 ★★★★★
(28.07.13 14:24:06 MSK)
Последнее исправление: pekmop1024 28.07.13 14:24:56 MSK (всего исправлений: 1)

Ответ на: комментарий от pekmop1024 28.07.13 14:24:06 MSK

Хех. мои всякие разные тесты подходят к концу уже.

Но выводы печальные. Именно считать лучше на одном процессоре. Но он хрен адресует более 128 рамы (8 модулей по 16, а модули по 32- стоят больше килобакса каждый - не вариант).

~~dk-~~ ☆
(28.07.13 14:26:02 MSK) автор топика

Ответ на: комментарий от dk- 28.07.13 14:26:02 MSK

Именно считать лучше на одном процессоре

На 4+ пробовал?

pekmop1024 ★★★★★
(28.07.13 14:41:25 MSK)

Ответ на: комментарий от pekmop1024 28.07.13 14:41:25 MSK

в тестовой системе только 2 сокета. 4х головых в доступе нет.

так бы да... 32 слота забить 16гб модулями.

~~dk-~~ ☆
(28.07.13 14:43:20 MSK) автор топика

Ответ на: комментарий от dk- 28.07.13 14:43:20 MSK

А что насчет CUDA?

LongLiveUbuntu ★★★★★
(28.07.13 15:08:31 MSK)

если задача проседает на интеле от включения НТ, то нет особого смысла браться за 16-ядерный оптерон (вместо 8ядерного зиона)?

Зависит от задачи. Может возникнуть ситуация, когда задача проседает из-за включения HT так как все треды выполняют одни и те же операции, и используют одни и те же ресурсы процессора, HT не может их распараллелить и начинаются тормоза из-за оверхеда, который даёт HT. Но при этом треды выполняют только целочисленные вычисления, тогда 16 модулей будет максимально эффективны. Да и в менее идеальных случаях бульдозер не будет так просаживать производительность ибо оверхед меньше и у каждого ядра есть свой планировщик.

kranky ★★★★★
(28.07.13 15:15:08 MSK)

Ответ на: комментарий от dk- 28.07.13 14:43:20 MSK

Пятигуй в вайне работает? Не пробовал сравнить на многопроцессорной машине wine vs windows? Планировщик на винде для математики никуда не годится, местами разрывы до 30% в пользу линукса.

pekmop1024 ★★★★★
(28.07.13 15:18:44 MSK)

Ответ на: комментарий от LongLiveUbuntu 28.07.13 15:08:31 MSK

Нет и не будет. Авторы говоря, что на это не раскладывается.

~~dk-~~ ☆
(28.07.13 15:33:18 MSK) автор топика

Ссылка

Ответ на: комментарий от kranky 28.07.13 15:15:08 MSK

Т.е. нужен тупо тест на амд. Жаль не найти. Было бы интересно.

~~dk-~~ ☆
(28.07.13 15:33:49 MSK) автор топика

Ссылка

Ответ на: комментарий от pekmop1024 28.07.13 15:18:44 MSK

Не знаю. Вроде должен.

Сервер завтра выключат и разберут уже. Не успею. Да и сто лет линуксы не пользовался, что бы не накосячить при подготовке системы.

~~dk-~~ ☆
(28.07.13 15:37:02 MSK) автор топика

Ссылка

Надо тестить. AMD FX очень хороши для многопоточной нагрузки за свои деньги.

Relan ★★★★★
(28.07.13 15:37:40 MSK)

Ответ на: комментарий от Relan 28.07.13 15:37:40 MSK

Хот на ЛОР перепись вендузятников с амд фх объявляй :)

~~dk-~~ ☆
(28.07.13 15:39:50 MSK) автор топика

Ответ на: комментарий от dk- 28.07.13 15:39:50 MSK

А что за виндософт ты гоняешь?

Relan ★★★★★
(28.07.13 15:49:24 MSK)

Ответ на: комментарий от dk- 28.07.13 14:23:10 MSK

о чем это говорит?

Скорее всего планировщик перебрасывал процессы между физическими ЦПУ.

aidaho ★★★★★
(28.07.13 15:53:06 MSK)

Ссылка

Ответ на: комментарий от dk- 28.07.13 15:39:50 MSK

И венда и амдфх есть, могу потестить.

kranky ★★★★★
(28.07.13 16:09:09 MSK)

Ответ на: комментарий от Relan 28.07.13 15:49:24 MSK

PTGUI (еще под макось бинарник есть)

~~dk-~~ ☆
(28.07.13 16:15:32 MSK) автор топика

Ответ на: комментарий от kranky 28.07.13 16:09:09 MSK

Супер, спасибо :) Пойду готовить сырье.

Суть: с сайта автора софта скачать бинарник, запустить (можно прямо в триал режиме), скормить ему файл проекта и сырье-жипеги. Запустить сборку (одна кнопка).

Нужно будет понять есть ли проседание скорости при задействии всех ядер.

А какой конфиг компа? Если рамы мало, то тест слишком смазанный будет.

~~dk-~~ ☆
(28.07.13 16:17:37 MSK) автор топика

Ответ на: комментарий от dk- 28.07.13 16:17:37 MSK

Ну самое крутое, что сейчас у меня есть - FX-8350, 8Гб ddr3-1866, мамка - асусовский сабертух р2.0

Скачал PTGui Pro 9.1.7 trial for Windows (32 and 64 bit)

kranky ★★★★★
(28.07.13 16:20:54 MSK)
Последнее исправление: kranky 28.07.13 16:22:41 MSK (всего исправлений: 1)

Ответ на: комментарий от dk- 28.07.13 16:15:32 MSK

Могу погонять на FX-8150, 16 ГБ памяти, Windows 7 x64.

Relan ★★★★★
(28.07.13 16:26:01 MSK)

Ответ на: комментарий от kranky 28.07.13 16:20:54 MSK

Тогда с гигапикселями можно и не пробовать. Упрется в раму.

Вот папка обычной панорамкой: http://yadi.sk/d/dUva7JPz7IytP

там файл проекта, его запустить, спросит где жипеги - указать.

Потом «создать панораму». Интересует скорость варпа (оно будет писать какие кадры варпает) на 4 и 8 потоках.

Потоки можно ограничить через настройки софтины.

Опции / расширенные. Там снят галку с «авто» и указать вручную 4 потока.

Правда большой вопрос, как вендовый планировщик раскидает потоки. Не будут ли молотить вместо 4 «модулей», лишь 2 «модуля» (обеими своими частями).

~~dk-~~ ☆
(28.07.13 18:26:05 MSK) автор топика

Ответ на: комментарий от Relan 28.07.13 16:26:01 MSK

16гб это даже интереснее. Т.к. в 16 со скрипом влазит.

Ссылка выше.

~~dk-~~ ☆
(28.07.13 18:26:37 MSK) автор топика

Ответ на: комментарий от dk- 28.07.13 18:26:05 MSK

Вобщем так: когда количество потоков выбирается автоматически (8), то примерно 2 минуты, когда выставляю вручную 4, то полторы минуты. Ни в том, ни в другом случае средняя загрузка каждого ядра не переваливает за 60% во время работы программы (ядра ещё и в энергосберегающий режим уходить успевают, лол). Если выставляю только одно ядро, то оно загружается полностью и думает ~4 минуты, если два потока, то их венда раскидывает по разным модулям и получается примерно 2.5 минуты.

kranky ★★★★★
(28.07.13 19:05:09 MSK)

Ответ на: комментарий от kranky 28.07.13 19:05:09 MSK

Короче даже если выставляешь 4 потока, венда всё равно старается их раскидать на все 8 ядер, но если средствами венды указать, что процессу доступны только 4 ядра, то оно будет выполняться только на них, и загрузит их на 100%.

kranky ★★★★★
(28.07.13 19:15:29 MSK)

Ответ на: комментарий от kranky 28.07.13 19:15:29 MSK

Если 4 ядра из 4х разных модулей, то на склейку панорамы уходит примерно 90 секунд, а если это будут 2 модуля, то примерно 100 секунд.

Ещё есть подозрение, что оно в хард упирается. Когда ядра уходят отдыхать, хард жужжит на полную.

kranky ★★★★★
(28.07.13 19:21:37 MSK)
Последнее исправление: kranky 28.07.13 19:23:38 MSK (всего исправлений: 1)

Ответ на: комментарий от kranky 28.07.13 19:21:37 MSK

Рамы явно нехватает. А хард это нормально. Оно так устроено что на винте ьежит постоянно обновляемая версия будущего результата.

~~dk-~~ ☆
(28.07.13 19:29:01 MSK) автор топика

Ответ на: комментарий от dk- 28.07.13 19:29:01 MSK

Рамы явно нехватает. А хард это нормально. Оно так устроено что на винте ьежит постоянно обновляемая версия будущего результата.

Что и как тестить, у меня i7-3770K + 32GB(DDR3-2133, но проц больше DDR3-1600 не позволяет) оперативы. Могу потестить в линуксе(Kubuntu 64bit) и в винде(Windows 7 64bit).

V1KT0P ★★
(29.07.13 00:10:10 MSK)

Ответ на: комментарий от V1KT0P 29.07.13 00:10:10 MSK

На этом проце тоже интересно. Хотя речь выше про амд шла. Прошу затестить «НТ вкл» против «НТ выкл» :)

1. http://www.ptgui.com/downloads/90107/pro_trial/win/1375042381/e1bfd817853ebc8... скачать триалку.

2. https://disk.yandex.ru/public/?hash=VLKH/uY/dsZGFVAx6PePLiaAGDpPKies02hSACZ7yYg= скачать файл проекта и сырье.

3. открыть файл проекта. указать откуда брать жипеги (он спросит). запустить сшивку

4. сравнить время для НТ и для без НТ.

5. (самое интересное) - попробовать запустить под вайном. я ни разу не пробовал.

~~dk-~~ ☆
(29.07.13 00:15:03 MSK) автор топика

Ответ на: комментарий от pekmop1024 28.07.13 14:24:06 MSK

Ты ему еще про NUMA расскажи.

~~zgen~~ ★★★★★
(29.07.13 00:37:00 MSK)

Ссылка

Ответ на: комментарий от dk- 29.07.13 00:15:03 MSK

4. сравнить время для НТ и для без НТ.

Вод виндой:
Без HT: за 55 сек(не учитывал 5 секунд на сохранения результата). Потребление памяти не достигало 8 гиг.
С HT: за 53 сек, потребление памяти в некоторые моменты достигало 10 гиг.

V1KT0P ★★
(29.07.13 00:52:12 MSK)

Ответ на: комментарий от V1KT0P 29.07.13 00:52:12 MSK

Хм. А у меня НТ - минус 15% скорости.

~~dk-~~ ☆
(29.07.13 00:53:27 MSK) автор топика

Ответ на: комментарий от dk- 29.07.13 00:53:27 MSK

Хм. А у меня НТ - минус 15% скорости.

Я делал по два замера.
Под wine не работает, после выбора проекта прога закрывается.

V1KT0P ★★
(29.07.13 01:13:16 MSK)

Ссылка

Может я ошибаюсь, но HT это просто хитрый планировщик, а АМДшные не-ядра это всё же отдельные вычислители.

yu-boot ★★★★★
(29.07.13 12:17:48 MSK)

Ответ на: комментарий от yu-boot 29.07.13 12:17:48 MSK

Как мне сказа один железячник, у НТ процов именно в железе есть определенные плюшки. Небольшие блоки какие-то. Т.е. часть железа для виртуального и реального ядра общая, а часть раздельная.

~~dk-~~ ☆
(29.07.13 12:30:26 MSK) автор топика

Ссылка

Ответ на: комментарий от dk- 28.07.13 18:26:37 MSK

8 тредов — 1:21

4 треда — 1:41

2 треда — 2:55

Похоже, что прирост есть. Думаю, упирается либо в FPU, либо в скорость работы памяти. Если первое, то толк от 16-ядерного Оптерона будет. Если второе, то скорее всего нет. Всё равно тестить надо. :)

Relan ★★★★★
(29.07.13 15:30:56 MSK)

Ответ на: комментарий от Relan 29.07.13 15:30:56 MSK

8 тредов — 1:21

А 16?

~~redgremlin~~ ★★★★★
(29.07.13 17:37:00 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Сегалович всё

Talks

Где купить такой блокнот?

→

Похожие темы