LINUX.ORG.RU

История изменений

Исправление kirill_rrr, (текущая версия) :

У меня знакомый рассказывает как ему на атоме удобны, а я лично вижу как там всё тормозит.

Так атомы или таки про бульдозеры говорим?

Конечно считаешь, используя браузер, правда +-однопоточно.

На практике вся эта математика не сгруппирована в пакет повторяющихся блоков, а размазана мелкими группами между html, css, jpeg, и просто тупо порождением процессов вкладки которое занимает до половины времени отрисовки в хромоклоне. Логической асти обоих полуядер есть чем заняться пока фпу считает.

Там на глаз видно.

На глаз видно на гиперпоточных процах, а тут как раз максимально не видно.

С чего вдруг? Потому что НЕУДОБНОЕ?

См. выше, в пятый раз повторять не буду.

Ты лучше не увиливай а покажи где там твой мифический многопоток с таким раскладом.

Ну глянь наконец на гикбенче разницу между 6-и ядерным ай-5 14*** и ай-9 14***. А потом загугли тесты игровой производительности на разных частотах между 6-и и 24-х ядерниками и прочими 32-поточниками. Сильно удивишся.

Ты не знаешь, что в типичных процессорах кардинально меньше каналов памяти чем ядер или что?

Это как раз я знаю. А ты покажи мне 2 канала, работающих на 1 ядро! Или не звизди что так бывает.

Даже при адекватном бывает оказывается выгоднее race to idle.

Я уже привёл тесты с падением эффективности на такт. Так что если ты выужден совершить больше тактов на одну и ту же работу, причём сделать это с большим напряжением на ядро, то физика может сказать своё веское слово против race to idle. Причём любой проц с приличным управлением питанием (а тем что с неприичным - уже и так без разницы) при гонке на одном ядре легко усыпит остальные ненужные.

Единственный вариант, где может быть выгоден race to idle, это гонка на выдачу команд на гпу чтобы хоть чуть-чуть остыть пока считает гпу. Но тут есть один маленький и незначительный нюанс: если у тебя однопоточная примитивная игрушка типа Q3 - всё именно так. А вот если это современный многопоток, да с пост-обработкой типа апскейла/генератора кадров, да с инпут-лагом - попытка быстро завершить кадр и СТОЯТЬ НЕ ГОТОВЯ СЛЕДУЮЩЕГО - полный идиотизм. Ведь отсутствие инпут-лага из за рисования кадров в очередь уже по определению просрана.

На многоядерных райзенах soc чиплет керогазит энергию впустую например. На xeon то же самое.

Да, но сколько? Если тебе кажется что на ризенах много - ну ты видимо не видел многоядерных коре2 и того же атом Д525 (у которого полный idle отличается от полной загрузки всего на 30% по потреблению. Мобильный чип мать его за ногу).

Кстати, ризены (и ричланды) уже давно не творят такой фигни, как боадком на RPi4: там частота всех 4-х ядер управляется одним генератором, выставляется по загрузке самого занятого. Остальные молотят вхолостую. Минимальная разница энергопотребления между 1 и 4 потоками нагрузки.

керогазит энергию впустую например.

Было бы страным если не так. Ты ведь в курсе, что Л2+Л3 кеш занимает в среднем в 2-3 раза больше площади кристалла чем собственно ядра? А можно ли его отключить, если 7/8 ядер спят? Ладно, а хотя бы снизить частоту Л3 кеша можно не просадив произодительность? Ну вот тебе и холостое потребление, с которым ты в принципе ничерта сделать не можешь. И не какое то, а в 2/3 чиплета. Ты не думал почему ВСЕ энергоэффективные ядра имеют такие маленькие кеши, даже сейчас, даже у интела?

И какие же? Что подразумевается под «более высокой технологии»?

Очевидно когда какой нибудь арм/атом тратит меньше энергии на задачу чем быстрый и более новый х86 более тонкого техпроцесса.

Вон выше по ссылке целерончик разделывает в хлам бедного фуфыкса по эффективности. Это просто очевидный и ожидаемый исход.

А можно продублировать это самое «вон выше». А то целерончики мы пока что не обсуждали. Или ты вообще о том, что любой эффективный цпу по определению уделает в эффективности форсированного?

Исходная версия kirill_rrr, :

У меня знакомый рассказывает как ему на атоме удобны, а я лично вижу как там всё тормозит.

Так атомы или таки про бульдозеры говорим?

Конечно считаешь, используя браузер, правда +-однопоточно.

На практике вся эта математика не сгруппирована в пакет повторяющихся блоков, а размазана мелкими группами между html, css, jpeg, и просто тупо порождением процессов вкладки которое занимает до половины времени отрисовки в хромоклоне. Логической асти обоих полуядер есть чем заняться пока фпу считает.

Там на глаз видно.

На глаз видно на гиперпоточных процах, а тут как раз максимально не видно.

С чего вдруг? Потому что НЕУДОБНОЕ?

См. выше, в пятый раз повторять не буду.

Ты лучше не увиливай а покажи где там твой мифический многопоток с таким раскладом.

Ну глянь наконец на гикбенче разницу между 6-и ядерным ай-5 14*** и ай-9 14***. А потом загугли тесты игровой производительности на разных частотах между 6-и и 24-х ядерниками и прочими 32-поточниками. Сильно удивишся.

Ты не знаешь, что в типичных процессорах кардинально меньше каналов памяти чем ядер или что?

Это как раз я знаю. А ты покажи мне 2 канала, работающих на 1 ядро! Или не звизди что так бывает.

Даже при адекватном бывает оказывается выгоднее race to idle.

Я уже привёл тесты с падением эффективности на такт. Так что если ты выужден совершить больше тактов на одну и ту же работу, причём сделать это с большим напряжением на ядро, то физика может сказать своё веское слово против race to idle. Причём любой проц с приличным управлением питанием (а тем что с неприичным - уже и так без разницы) при гонке на одном ядре легко усыпит остальные ненужные.

Единственный вариант, где может быть выгоден race to idle, это гонка на выдачу команд на гпу чтобы хоть чуть-чуть остыть пока считает гпу. Но тут есть один маленький и незначительный нюанс: если у тебя однопоточная примитивная игрушка типа Q3 - всё именно так. А вот если это современный многопоток, да с пост-обработкой типа апскейла/генератора кадров, да с инпут-лагом - попытка быстро завершить кадр и СТОЯТЬ НЕ ГОТОВЯ СЛЕДУЮЩЕГО - полный идиотизм. Ведь отсутствие инпут-лага из за рисования кадров в очередь уже по определению просрана.

На многоядерных райзенах soc чиплет керогазит энергию впустую например. На xeon то же самое.

Да, но сколько? Если тебе кажется что на ризенах много - ну ты видимо не видел многоядерных коре2 и того же атом Д525 (у которого полный idle отличается от полной загрузки всего на 30% по потреблению. Мобильный чип мать его за ногу).

Кстати, ризены (и ричланды) уже давно не творят такой фигни, как боадком на RPi4: там частота всех 4-х ядер управляется одним генератором, выставляется по загрузке самого занятого. Остальные молотят вхолостую. Минимальная разница энергопотребления между 1 и 4 потоками нагрузки.

керогазит энергию впустую например.

Было бы страным если не так. Ты ведь в курсе, что Л2+Л3 кеш занимает в среднем в 2-3 раза больше площади кристалла чем собственно ядра? А можно ли его отключить, если 7/8 ядер спят? Ладно, а хотя бы снизить частоту Л3 кеша можно не просадив произодительность? Ну вот тебе и холостое потребление, с которым ты в принципе ничерта сделать не можешь. И не какое то, а в 2/3 чиплета. Ты не думал почему ВСЕ энергоэффективные ядра имеют такие маленькие кеши, даже сейчас, даже у интела?

И какие же? Что подразумевается под «более высокой технологии»?

Очевидно когда какой нибудь арм/атом тратит меньше энергии на задачу чем быстрый и более новый х86 более тонкого техпроцесса.

Вон выше по ссылке целерончик разделывает в хлам бедного фуфыкса по эффективности. Это просто очевидный и ожидаемый исход.

А можно продублировать это самое «вон выше». А то целерончики мы пока что не обсуждали.