LINUX.ORG.RU
ФорумTalks

Опять про Inel HT vs AMD


0

2

На лоре во многократных срачах на тему процессоров не раз высказывались мысли о том, что амдшные бульдозеры и остальное - многоядерное это как бы интеловский НТ, только иначе маркетологи обозвали.

Где-то я читал, что у процов штеуда с НТ некие блоки специально для НТ созданы. Т.к. тоже как бы модульная система «это на пару „ядро и виртуальное ядро“ общее, а вот это только у реального ядра».

Насколько правомерно предположение о том, что если задача проседает на интеле от включения НТ, то нет особого смысла браться за 16-ядерный оптерон (вместо 8ядерного зиона)?

Ясень пень, что это вилами по воде и их нельзя сравнивать напрямую. Но я про саму тенденцию.


Если нагрузка на FPU, будет аналогичное HT поведение, т.к. FPU на модуль - один. Понятно, что разница будет, но тенденция такая.

pekmop1024 ★★★★★
()

Насколько правомерно предположение о том, что если задача проседает на интеле от включения НТ,

Это зависит от того, какая задача и где у неё узкое место. Корреляция может быть как прямой, так и обратной.

zgen ★★★★★
()
Ответ на: комментарий от pekmop1024

Покумекай еще вот над чем:

2 зиона по 8 ядер. Отключаем по 4 ядра в каждом. остается 8 ядер (НТ отключен). считаем.

потом вынимаем один процессор. на отавшемся включаем все 8 ядер. считаем.

смотрим результат - один процессор о 8 ядрах - быстрее двух по 4.

о чем это говорит? говно линк между горшков?

dk-
() автор топика
Ответ на: комментарий от dk-

Латентность линка между процессорами всегда будет больше. Еще там наверняка возрастает латентность памяти, т.к. контроллеров два в случае двух процессоров и им надо договариваться.

pekmop1024 ★★★★★
()
Последнее исправление: pekmop1024 (всего исправлений: 1)
Ответ на: комментарий от pekmop1024

Хех. мои всякие разные тесты подходят к концу уже.

Но выводы печальные. Именно считать лучше на одном процессоре. Но он хрен адресует более 128 рамы (8 модулей по 16, а модули по 32- стоят больше килобакса каждый - не вариант).

dk-
() автор топика
Ответ на: комментарий от pekmop1024

в тестовой системе только 2 сокета. 4х головых в доступе нет.

так бы да... 32 слота забить 16гб модулями.

dk-
() автор топика

если задача проседает на интеле от включения НТ, то нет особого смысла браться за 16-ядерный оптерон (вместо 8ядерного зиона)?

Зависит от задачи. Может возникнуть ситуация, когда задача проседает из-за включения HT так как все треды выполняют одни и те же операции, и используют одни и те же ресурсы процессора, HT не может их распараллелить и начинаются тормоза из-за оверхеда, который даёт HT. Но при этом треды выполняют только целочисленные вычисления, тогда 16 модулей будет максимально эффективны. Да и в менее идеальных случаях бульдозер не будет так просаживать производительность ибо оверхед меньше и у каждого ядра есть свой планировщик.

kranky ★★★★★
()
Ответ на: комментарий от dk-

Пятигуй в вайне работает? Не пробовал сравнить на многопроцессорной машине wine vs windows? Планировщик на винде для математики никуда не годится, местами разрывы до 30% в пользу линукса.

pekmop1024 ★★★★★
()
Ответ на: комментарий от LongLiveUbuntu

Нет и не будет. Авторы говоря, что на это не раскладывается.

dk-
() автор топика
Ответ на: комментарий от kranky

Т.е. нужен тупо тест на амд. Жаль не найти. Было бы интересно.

dk-
() автор топика
Ответ на: комментарий от pekmop1024

Не знаю. Вроде должен.

Сервер завтра выключат и разберут уже. Не успею. Да и сто лет линуксы не пользовался, что бы не накосячить при подготовке системы.

dk-
() автор топика

Надо тестить. AMD FX очень хороши для многопоточной нагрузки за свои деньги.

Relan ★★★★★
()
Ответ на: комментарий от dk-

о чем это говорит?

Скорее всего планировщик перебрасывал процессы между физическими ЦПУ.

aidaho ★★★★★
()
Ответ на: комментарий от kranky

Супер, спасибо :) Пойду готовить сырье.

Суть: с сайта автора софта скачать бинарник, запустить (можно прямо в триал режиме), скормить ему файл проекта и сырье-жипеги. Запустить сборку (одна кнопка).

Нужно будет понять есть ли проседание скорости при задействии всех ядер.

А какой конфиг компа? Если рамы мало, то тест слишком смазанный будет.

dk-
() автор топика
Ответ на: комментарий от dk-

Ну самое крутое, что сейчас у меня есть - FX-8350, 8Гб ddr3-1866, мамка - асусовский сабертух р2.0

Скачал PTGui Pro 9.1.7 trial for Windows (32 and 64 bit)

kranky ★★★★★
()
Последнее исправление: kranky (всего исправлений: 1)
Ответ на: комментарий от kranky

Тогда с гигапикселями можно и не пробовать. Упрется в раму.

Вот папка обычной панорамкой: http://yadi.sk/d/dUva7JPz7IytP

там файл проекта, его запустить, спросит где жипеги - указать.

Потом «создать панораму». Интересует скорость варпа (оно будет писать какие кадры варпает) на 4 и 8 потоках.

Потоки можно ограничить через настройки софтины.

Опции / расширенные. Там снят галку с «авто» и указать вручную 4 потока.

Правда большой вопрос, как вендовый планировщик раскидает потоки. Не будут ли молотить вместо 4 «модулей», лишь 2 «модуля» (обеими своими частями).

dk-
() автор топика
Ответ на: комментарий от dk-

Вобщем так: когда количество потоков выбирается автоматически (8), то примерно 2 минуты, когда выставляю вручную 4, то полторы минуты. Ни в том, ни в другом случае средняя загрузка каждого ядра не переваливает за 60% во время работы программы (ядра ещё и в энергосберегающий режим уходить успевают, лол). Если выставляю только одно ядро, то оно загружается полностью и думает ~4 минуты, если два потока, то их венда раскидывает по разным модулям и получается примерно 2.5 минуты.

kranky ★★★★★
()
Ответ на: комментарий от kranky

Короче даже если выставляешь 4 потока, венда всё равно старается их раскидать на все 8 ядер, но если средствами венды указать, что процессу доступны только 4 ядра, то оно будет выполняться только на них, и загрузит их на 100%.

kranky ★★★★★
()
Ответ на: комментарий от kranky

Если 4 ядра из 4х разных модулей, то на склейку панорамы уходит примерно 90 секунд, а если это будут 2 модуля, то примерно 100 секунд.

Ещё есть подозрение, что оно в хард упирается. Когда ядра уходят отдыхать, хард жужжит на полную.

kranky ★★★★★
()
Последнее исправление: kranky (всего исправлений: 1)
Ответ на: комментарий от kranky

Рамы явно нехватает. А хард это нормально. Оно так устроено что на винте ьежит постоянно обновляемая версия будущего результата.

dk-
() автор топика
Ответ на: комментарий от dk-

Рамы явно нехватает. А хард это нормально. Оно так устроено что на винте ьежит постоянно обновляемая версия будущего результата.

Что и как тестить, у меня i7-3770K + 32GB(DDR3-2133, но проц больше DDR3-1600 не позволяет) оперативы. Могу потестить в линуксе(Kubuntu 64bit) и в винде(Windows 7 64bit).

V1KT0P ★★
()
Ответ на: комментарий от V1KT0P

На этом проце тоже интересно. Хотя речь выше про амд шла. Прошу затестить «НТ вкл» против «НТ выкл» :)

1. http://www.ptgui.com/downloads/90107/pro_trial/win/1375042381/e1bfd817853ebc8... скачать триалку.

2. https://disk.yandex.ru/public/?hash=VLKH/uY/dsZGFVAx6PePLiaAGDpPKies02hSACZ7yYg= скачать файл проекта и сырье.

3. открыть файл проекта. указать откуда брать жипеги (он спросит). запустить сшивку

4. сравнить время для НТ и для без НТ.

5. (самое интересное) - попробовать запустить под вайном. я ни разу не пробовал.

dk-
() автор топика
Ответ на: комментарий от dk-

4. сравнить время для НТ и для без НТ.

Вод виндой:
Без HT: за 55 сек(не учитывал 5 секунд на сохранения результата). Потребление памяти не достигало 8 гиг.
С HT: за 53 сек, потребление памяти в некоторые моменты достигало 10 гиг.

V1KT0P ★★
()
Ответ на: комментарий от dk-

Хм. А у меня НТ - минус 15% скорости.

Я делал по два замера.
Под wine не работает, после выбора проекта прога закрывается.

V1KT0P ★★
()

Может я ошибаюсь, но HT это просто хитрый планировщик, а АМДшные не-ядра это всё же отдельные вычислители.

yu-boot ★★★★★
()
Ответ на: комментарий от yu-boot

Как мне сказа один железячник, у НТ процов именно в железе есть определенные плюшки. Небольшие блоки какие-то. Т.е. часть железа для виртуального и реального ядра общая, а часть раздельная.

dk-
() автор топика
Ответ на: комментарий от dk-

8 тредов — 1:21

4 треда — 1:41

2 треда — 2:55

Похоже, что прирост есть. Думаю, упирается либо в FPU, либо в скорость работы памяти. Если первое, то толк от 16-ядерного Оптерона будет. Если второе, то скорее всего нет. Всё равно тестить надо. :)

Relan ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.