Понимание широкой команды, VLIW

4

2

Лорчик, у меня тут вопрос возник, чисто теоретический.

Есть VLIW, архитектура e2k. Если посмотреть ассемблерный код, то команда там будет в фигурных скобках. Это и есть одна широкая команда.

Пример:

{
  nop 2
  istofd,3    %g17, %g18
}
{
  nop 7
  sdivs,5     %g17, %g16, %g16
}

В документации сказано, что одна такая широкая команда выполняется процессором за 1 такт. Справедливости ради, нужно заметить, что здесь ни слова про ядра. Просто сказано, что за один такт.

Дальше отсебятина, точнее «отменятина». Как бы суть-то широкой команды именно в том, чтобы распределить мелкие команды внутри этой широкой между ядрами процессора. Т.е. смысл фразы «за один такт» - это просто распараллеливание по ядрам.

Поскольку e2k не содержит жуткого блока предсказаний, как на обычном х86_64 и не умеет распаралеливать команды сам. За него это делает компилятор. Вот для этого и нужна эта широкая команда - компилятор распаралелил, перетасовал команды и сказал как их надо выполнить.

А теперь вот вопрсик в связи с этим. Получается, что прогу для e2k придется пересобирать для разных e2k процессоров с разным числом ядер?

Допустим прога собрана для Эльбрус 8С, у которого 8 ядер. Значит в фигурных скобках будет много команд. Т.е. широкая команда будет ну очень широкой, широчайшей прям! А запустится ли этот получившийся бинарник, скажем на 4С, у которого только 4 ядра? А на 1С? В смысле без пересборки.

Ссылка

←	Как починить конфликт libicu на Ubuntu 18.04?

по разработке на Gtk+, с ютуба обучающие ролики посоветуйте, пожалуйста

→

← 1 2 3 4 5 6 →

Ответ на: комментарий от Puzan 05.08.20 12:58:16 MSK

И его тоже. С повышением частот и скоростей задержка в проводах стала выше, чем в транзисторах, по этому стали искать диэлектрики с низкой проницаемостью. Их много, и в основном это соединения кремния, если я не ошибаюсь. И это точно не воздух :)

После этих разговоров ещё больше захотелось фотонный компьютер… =/

anonymous
(05.08.20 13:19:02 MSK)

Ссылка

Ответ на: комментарий от Puzan 05.08.20 12:58:16 MSK

в основном это соединения кремния

Как уже сказал, это для изоляции подложки-кремния. Тупо оксиляют, травят азотом или что там можно еще сделать с кремнием, чтобы получить диэлектрик.

Интереснее, чем заливают/напыляют остальные стороны - право, лево и верх, которых 3 раза больше одной стороны - низа, то есть больший вклад на диэлектрическую проницаемость. 1) когда однослойная микросхема, 2) если многослойная микросхема. В виду «прозрачности» - чем-то стеклоподобным, хотя стекло - это тоже смесь содержащая кремний.

anonymous
(05.08.20 13:20:00 MSK)

Ответ на: комментарий от anonymous 05.08.20 13:20:00 MSK

Как уже сказал, это для изоляции подложки-кремния.

Я говорю об межслойной изоляции (inter-metal dielectric).

Интереснее, чем заливают/напыляют остальные стороны - право, лево и верх,

Я уже сказал, что в основном это соединения кремния. Напыляют например осаждением из газовой фазы или центрифугированием с последующим отжигом.

Puzan ★★★★★
(05.08.20 13:31:52 MSK)
Последнее исправление: Puzan 05.08.20 13:32:21 MSK (всего исправлений: 1)

Ответ на: комментарий от Puzan 05.08.20 13:31:52 MSK

Для снижения проницаемости, кстати, диэлектрик еще делают пористым.

Puzan ★★★★★
(05.08.20 13:35:41 MSK)

Ответ на: комментарий от Puzan 05.08.20 12:40:10 MSK

Из-за неоднородности

из-за нелинейности

anonymous
(05.08.20 13:47:33 MSK)

Ответ на: комментарий от anonymous 05.08.20 13:47:33 MSK

из-за нелинейности

И из-за нелинейности тоже.

Puzan ★★★★★
(05.08.20 13:53:32 MSK)

Ответ на: комментарий от Puzan 05.08.20 13:35:41 MSK

диэлектрик еще делают пористым.

Неужели воздух? :)

anonymous
(05.08.20 14:15:19 MSK)

Ответ на: комментарий от anonymous 05.08.20 14:15:19 MSK

Неужели воздух? :)

Что воздух? В порах? Много ли воздуха влезет в пору диаметром 1-2нм?

Puzan ★★★★★
(05.08.20 14:27:38 MSK)

Ответ на: комментарий от Puzan 05.08.20 14:27:38 MSK

Много ли воздуха влезет в пору диаметром 1-2нм?

А много и не надо. Чем меньше материи, тем ближе к вакууму.

anonymous
(05.08.20 14:40:21 MSK)

Ссылка

Ответ на: комментарий от Puzan 05.08.20 13:35:41 MSK

Для снижения проницаемости, кстати

Кстати, проницаемость подбирают, скорее всего, под волновое сопротивление, фазовый сдвиг, или прочую ересь, которую я не знаю, что может дать выбросы при гигагерцовых частотах. А скорость света в среде - это в последнюю очередь, как следствие вышеприведенной ереси.

anonymous
(05.08.20 14:47:10 MSK)

Ответ на: комментарий от anonymous 05.08.20 14:47:10 MSK

Кстати, проницаемость подбирают, скорее всего, под волновое сопротивление, фазовый сдвиг, или прочую ересь, которую я не знаю, что может дать выбросы при гигагерцовых частотах.

В масштабах кристалла линии передачи можно считать объектами с сосредоточенными параметрами, по этому импеданс «и прочую ересь» можно не учитывать.

А скорость света в среде - это в последнюю очередь

Всё наоборот.

Puzan ★★★★★
(05.08.20 14:59:15 MSK)

Ответ на: комментарий от Puzan 05.08.20 14:59:15 MSK

В масштабах кристалла линии передачи можно считать …

… нехилыми конденсаторами и индуктивностями, плюс к настоящим. И заряжаются эти кондесаторы и индуктивности определенное время. А это время зависит от емкости и тока в амперах (электрический заряд нужный для зарадки). Поэтому кристаллы современных быстрых микросхем маленькие. А скорость света - не первый по важности. Я так думаю.

anonymous
(05.08.20 15:20:50 MSK)

Ответ на: комментарий от anonymous 05.08.20 15:20:50 MSK

… нехилыми конденсаторами и индуктивностями

Сосредоточенными. Отражений и стоячих волн в них нет, т.е. согласование не нужно, т.е. импеданс не имеет значения.

А ёмкость и индуктивность конечно учитываются на этапе верификации.

Кстати, чем выше диэлектрическая проницаемость - тем выше емкость. Т.е. проницаемость в любом случае выгодно уменьшать (для сигнальных проводников).

Puzan ★★★★★
(05.08.20 15:52:03 MSK)

Ответ на: комментарий от Puzan 05.08.20 15:52:03 MSK

А ёмкость и индуктивность конечно учитываются на этапе верификации.

Еще бы не учитывался. :)

Скорость света в-хрен-пойми-какой-то-неоднородной-пористой-среде учитывается при верификации? Это к вопросу о важности скорости света.

Кстати, чем выше диэлектрическая проницаемость - тем выше емкость.

Кстати, я не спорил с этим.

И возвращаясь к изначальному посылу про скорость света и частоту для L1 кеша. Кеш - это очень много конденсаторов, у которых есть некоторые проблемы со временем зарядки.

anonymous
(05.08.20 16:03:02 MSK)

Ответ на: комментарий от anonymous 05.08.20 16:03:02 MSK

Скорость света в-хрен-пойми-какой-то-неоднородной-пористой-среде учитывается при верификации?

Конечно. И не «в-хрен-пойми-какой», а во вполне понятной с известными параметрами. Сам подумай: как не учитывать скорость распространения, если задержка в интерконнекте соизмерима с задержками в транзисторах?

И возвращаясь к изначальному посылу про скорость света и частоту для L1 кеша.

Это не ко мне вопрос, мне не охота вникать в ваши споры. Я только уточнил, что на кристалле скорость света ниже, чем в вакууме.

Puzan ★★★★★
(05.08.20 16:13:15 MSK)

Ответ на: комментарий от anonymous 05.08.20 16:03:02 MSK

Кеш - это очень много конденсаторов, у которых есть некоторые проблемы со временем зарядки.

Разве не SRAM?

anonymous
(05.08.20 16:14:50 MSK)

Ссылка

Ответ на: комментарий от Puzan 05.08.20 16:13:15 MSK

задержка в интерконнекте соизмерима с задержками в транзисторах

Проблема интерконнекта не в хрен-пойми-какой скорости света, а в синхронности.

Синхронность, например, обеспечивается одинаковостью проводов от тактового генератора. И не зависит от хрен-пойми-какой скорости света, главное чтоб она была одинакова для всех.

В общем, мне надоел этот «высокоинтеллектуальный» троллинг с твоей стороны. Ты похож на преподавателя на экзамене, который хочет завалить очередного студента.

anonymous
(05.08.20 16:47:18 MSK)

Ответ на: комментарий от anonymous 05.08.20 16:47:18 MSK

В общем, мне надоел этот «высокоинтеллектуальный» троллинг с твоей стороны

Настаивать не буду.

Если бы я был преподавателем, уже погнал бы ссаными тряпками за «хрен-пойми-какую скорость света» :)

Puzan ★★★★★
(05.08.20 17:00:15 MSK)

Ответ на: комментарий от Puzan 05.08.20 17:00:15 MSK

за «хрен-пойми-какую скорость света»

Ну скажи уже точную, вычисленную по модели, скорость в некоторой известной микросхеме. И чтоб, изменение этой скорости на 10% (да даже на 30%) ломало модель.

А то вбросил скорость света в оксиде кремния, потом оксид заменил соединениями кремния, потом - пористые структуры. И ни слова про волновое сопротивление и «прочую ересь», что при некоторой частоте проводник тупо станет большим сопротивлением, почти обрывом.

anonymous
(05.08.20 17:13:34 MSK)

Ответ на: комментарий от anonymous 05.08.20 17:13:34 MSK

чтоб

Товарищ khrundel авторизируйтесь пожалуйста.

anonymous
(05.08.20 17:29:52 MSK)

Ответ на: комментарий от anonymous 05.08.20 17:29:52 MSK

Он тут, вообще, не причем. Ты лучше подумай над своей теорией площади l1-кеша

anonymous
(05.08.20 17:44:56 MSK)

Ответ на: комментарий от anonymous 05.08.20 17:13:34 MSK

Ну скажи уже точную, вычисленную по модели, скорость в некоторой известной микросхеме.

Обратись на TSMC, они тебе подскажут.

что при некоторой частоте проводник тупо станет большим сопротивлением, почти обрывом.

Шта? Сам посчитаешь, какая частота резонанса стаба хотя бы 1мм длиной (не говоря про сотни-единицы микрометров)? А потом покажи мне цифровую микросхему, которая работает на такой частоте.

Кстати, тебе для информации: сопротивление проводников в микросхеме и так очень большое (до десятков килоом), по этому в моделях это обязательно учитывается (даже более важно, чем индуктивность).

Puzan ★★★★★
(05.08.20 17:49:04 MSK)

Ответ на: комментарий от anonymous 05.08.20 17:44:56 MSK

Он тут, вообще, не причем. Ты лучше подумай над своей теорией площади l1-кеша

Он любит использовать это слово.
Он несёт подобную пургу

Кеш - это очень много конденсаторов, у которых есть некоторые проблемы со временем зарядки.
Для него тоже «хрен-пойми-какая скорость света».
Ему тоже не даёт покой L1$ и я.
Он подозрительно давно не отвечает, что не свойственно.
И так далее.

anonymous
(05.08.20 17:51:22 MSK)

Ответ на: комментарий от anonymous 05.08.20 17:51:22 MSK

Он любит использовать это слово.

Слово «чтоб» я использовал один раз, может быть два (вряд ли). Так же я использовал слово «чтобы»

Понимание широкой команды, VLIW (комментарий)

Я вообще не вижу разницы между словами «чтоб» и «чтобы».

Он несёт подобную пургу

Все несут пургу: и он, и я, и ты про скорость света и площадь L1 кеша (говорят, у Ryzen больше 500+ килобайт l1 кеша при 4 ГГц)

Для него тоже «хрен-пойми-какая скорость света».

У него самодостаточная «хрень» без уточнений.

Он подозрительно давно не отвечает, что не свойственно.

Щас бы иметь миллиард звезд и писать под анонимом в совершенно другом стиле. Не похоже на многозвездочных.

anonymous
(05.08.20 18:08:15 MSK)

Ответ на: комментарий от anonymous 05.08.20 18:08:15 MSK

Слово «чтоб» я использовал один раз, может быть два (вряд ли). Так же я использовал слово «чтобы»

Чтобы он тоже использует, но крайне редко.

Я вообще не вижу разницы между словами «чтоб» и «чтобы».

Чтобы используется намного чаще. У него обратная ситуация. Можно поискать и другие слова.

чтоб — Результатов: примерно 121 000 000.
чтобы — Результатов: примерно 1 090 000 000

говорят, у Ryzen больше 500+ килобайт l1 кеша при 4 ГГц

Очередной бред. Суммарно по всем ядрам, а на ядро по 32 L1i и 32 L1d у Intel.

Щас бы иметь миллиард звезд и писать под анонимом в совершенно другом стиле. Не похоже на многозвездочных.

Предела его глупости не видно.

anonymous
(05.08.20 18:18:31 MSK)

Ответ на: комментарий от anonymous 05.08.20 18:18:31 MSK

Я вот написал кое где фигню, но никто меня не поправил (конструктивно). Вот так вот на ЛОРе часто и бывает - кто нибудь с умным видом втирает дичь, и ему верят :)

Puzan ★★★★★
(05.08.20 18:35:19 MSK)

Ответ на: комментарий от Puzan 05.08.20 18:35:19 MSK

Я вот написал кое где фигню, но никто меня не поправил (конструктивно). Вот так вот на ЛОРе часто и бывает - кто нибудь с умным видом втирает дичь, и ему верят :)

Все ошибаются. Если никто не поправил, значит нет той компетенции или времени. Мы не на собрании светлейших умов человечества.

anonymous
(05.08.20 18:43:10 MSK)

Ссылка

Ответ на: комментарий от anonymous 05.08.20 18:18:31 MSK

Чтобы он тоже использует, но крайне редко.

Я использовал один раз «чтобы», и второй раз - «чтоб». И ты сделал глобальные выводы, как про площадь l1 кеша?

на ядро по 32 L1i и 32 L1d у Intel.

И этот размер не зависит от частоты процессоров. А у яблока размер растет (один раз выросло), но частота почти не меняется. Как ты вывел зависимость частоты и размера L1? Может быть, оптимальный размер просто зависит от архитектуры, а не от скорости света?

anonymous
(05.08.20 18:49:19 MSK)

Ответ на: комментарий от Puzan 05.08.20 17:49:04 MSK

Обратись на TSMC, они тебе подскажут.

Ну же, скажи нам, хоть какую-то точную цифру, ты же знаешь и используешь, и проектируешь размеры микросхем на основании знания скорости света. Не надо послать лесом.

Сам посчитаешь, какая частота резонанса стаба хотя бы 1мм длиной (не говоря про сотни-единицы микрометров)?

Нет, потому что для меня это - «ересь».

сопротивление проводников в микросхеме и так очень большое (до десятков килоом), по этому в моделях это обязательно учитывается

И это сопротивление зависит от линейных размеров. Чем не более важный повод для оптимизации линейных размеров, по сравнению со скоростью света?

(даже более важно, чем индуктивность).

Лучше расскажи про электроемкость.

anonymous
(05.08.20 19:09:20 MSK)

Ответ на: комментарий от anonymous 05.08.20 19:09:20 MSK

Ну же, скажи нам, хоть какую-то точную цифру

Я не TSMC, у меня нет никаких цифр.

ты же знаешь и используешь, и проектируешь размеры микросхем на основании знания скорости света.

Кто тебе такую глупость сказал?

Нет, потому что для меня это - «ересь».

Так о чем с тобой разговаривать?

И это сопротивление зависит от линейных размеров. Чем не более важный повод для оптимизации линейных размеров

Интересно, почему они делают наоборот (меньше размер - больше сопротивление)?

Лучше расскажи про электроемкость.

Погугли.

Puzan ★★★★★
(05.08.20 20:11:17 MSK)

Ответ на: комментарий от anonymous 05.08.20 18:49:19 MSK

Я использовал один раз «чтобы», и второй раз - «чтоб». И ты сделал глобальные выводы, как про площадь l1 кеша?

Это послужило подсказкой.

И этот размер не зависит от частоты процессоров.

Если он не зависит, то почему Intel и AMD не сделают такой же? Это положительно скажется на скорости вычислений. Но вместо этого они сделали тот самый L2. К L2 меньше требований по задержкам и его можно сделать больше и получать данные с задержкой в несколько таков.

А у яблока размер растет (один раз выросло), но частота почти не меняется. Как ты вывел зависимость частоты и размера L1? Может быть, оптимальный размер просто зависит от архитектуры, а не от скорости света?

Частота не меняется, а вот техпроцесс улучшается. С увеличением плотности размещения транзисторов растёт плотность хранения информации. К тому же транзисторы начинают быстрее переключаться. Так же, как мы выяснили, снижается погонная ёмкость и индуктивность. Puzan Это ведь снизит задержки на распространение волны?

Структура L1 у всех почти одинаковая. Меняется размер L1, а зависит он от необходимой тактовой частоты. Физически невозможно сделать кэш площадью в МНОГО мм2 и тактовой частотой МНОГО ТГц. Это как с длинной волны электромагнитного излучения.

wiki

Название диапазона      Длины волн       Частоты
Инфракрасное излучение  1 мм — 780 нм    300 ГГц — 429 ТГц
Видимое излучение       780 — 380 нм     429 ТГц — 750 ТГц

C ростом частоты уменьшается длинна волны. Потому что при разной частоте, скорость движения света одинаковая. Свет просто не может физически пройти большее расстояние.

Представь себе такой мысленный эксперимент. Тебе нужно доехать из точки А в точку Б. Ты законопослушный водитель автомобиля и не превышаешь скоростной режим в 60 км/ч (скорость электромагнитной волны). На пути у тебя много поворотов (транзисторов), перед каждым нужно замедлится. Везде эти ~~плохие~~ светофоры (индуктивности) на которых постоянно загорается красный, когда ты к ним подъезжаешь. На дорогах постоянные пробки (погонные ёмкости), пока машины не разъедутся дальше не проехать. В зависимости от расстояния, пробок, количества поворотов и светофорами, меняется время (такт) необходимое для совершения поездки. Например, если кто-то скажет что тебе надо добраться из Гамбурга в Красноярск за 1 минуту (43 ТГц), то это невыполнимо в таких условиях, а вот за месяц (1 ГГц) выполнимо.

Улучшение техпроцесса, это как уменьшение города/земли (повышения плотности). Твоя скорость остаётся прежней, а вот расстояние сокращается, на поворотах можно не так тормозить, красный горит меньше времени, в пробках меньше авто. Поэтому из точки А в точку Б ты добираешься быстрее.

anonymous
(05.08.20 20:15:05 MSK)

Ответ на: комментарий от no-such-file 01.08.20 16:41:27 MSK

А как это вяжется с тем, что трансмета делала наоборот, они говорили, что машинный код под их железо лучше вообще не генерировать, а типа железо само разберется. У них же та же архитектура, разве нет? Это ошибка трансметы или просто другой подход?

anonymous
(05.08.20 20:24:31 MSK)

Ответ на: комментарий от Puzan 05.08.20 20:11:17 MSK

Я не TSMC, у меня нет никаких цифр.

Цифр нет, но выводы есть? И откуда могут появиться эти цифры про скорость света в неоднородной среде из проводников, полупроводников, диэлектриков, конденсаторов и тд и тп? Максимум эту скорость посчитали (измерили на реальном образце) для специальном образом проложенных проводов от тактового генератора, питающих линий и земли.

У меня есть подозрение, что ты говоришь про печатные платы, где еще можно гарантировать некоторое постоянство диэлекрической проницаемости. Про размеры и скорость света при размерах печатных промолчу.

Так о чем с тобой разговаривать?

Примени это же утверждение к себе - у тебя нет реальных цифр «скорости света».

Интересно, почему они делают наоборот (меньше размер - больше сопротивление)?

Опять «высокоинтелектуальный» троллинг. А они только толщину провода уменьшают, или длину тоже?

anonymous
(05.08.20 20:51:16 MSK)

Ответ на: комментарий от Puzan 05.08.20 13:53:32 MSK

И из-за нелинейности тоже

Исключительно из-за нелинейности.

Сами уравнения линейные, если в среде нет зависимостей параметров среды от E. Поэтому разные волны в линейных средах между собой не взаимодействуют.

Весь мир вокруг нас очень неоднородный, но подавляющей частью линейный. Воздух, земля, здания, люди. Тем не менее, радиоприемники очень хорошо выхватывают сигналы от разных радиостанций.

anonymous
(05.08.20 20:51:23 MSK)

Ответ на: комментарий от anonymous 05.08.20 20:24:31 MSK

что машинный код под их железо лучше вообще не генерировать Я подозреваю, что это связано с тем, что системную часть для своей архитектуры они не разрабатывали. Т.е. они заточили, скажем, ММУ под удоство трансляции из х86, а на нативный режим забили, тк юзкейс у железа другой.[br] Компилятор же видит весь код. Компилятор видит весь код в статике, а динамическая профилировка и оптимизация могут дать в некоторых случаях значительный выигрыш.[br] Томас Кислер, который был в трансмете далеко не последним человеком, году в 2011 приезжал в физтех читать лекции про бинарнотрансляторные системы, можно попробовать разыскать те презенташки. Звались они наподобие «lessons learned from transmeta». Может, я у себя их найду.

anonymous
(05.08.20 20:59:10 MSK)

Ответ на: комментарий от anonymous 05.08.20 20:59:10 MSK

http://mossigplan.acm.org/JIT.pptx
Весьма просто ищется.

anonymous
(05.08.20 21:02:26 MSK)

Ссылка

Ответ на: комментарий от anonymous 05.08.20 20:15:05 MSK

Это послужило подсказкой.

Экстраполяция по двум точкам?

Если он не зависит, то почему Intel и AMD не сделают такой же? Это положительно скажется на скорости вычислений.

Большой размер кеша предполагает больше накладных раходов по синхронизации кешей, например.

Частота не меняется, а вот техпроцесс улучшается…

Многа букаф. Не читал, но осуждаю.

anonymous
(05.08.20 21:03:04 MSK)

Ответ на: комментарий от anonymous 05.08.20 21:03:04 MSK

Большой размер кеша предполагает больше накладных раходов по синхронизации кешей, например.

Ты про когерентность? Она тут при чём? Ну пришло сообщение, строка инвалидироваллась, дальше что?

Многа букаф. Не читал, но осуждаю.

В этом весь ты.

anonymous
(05.08.20 21:10:50 MSK)

Ответ на: комментарий от anonymous 05.08.20 20:51:23 MSK

Да.

Puzan ★★★★★
(05.08.20 21:13:59 MSK)

Ссылка

Ответ на: комментарий от anonymous 05.08.20 20:59:10 MSK

Но если код оптимизирован под железо, то жит же неправильно определит горячие места. Не проще транслировать нативный код в оптимизированный нативный код?

Но то что они не озаботились компилятором - про это я понял. Интересный подход конечно, больше похоже на аппаратную реализацию виртуальной машины а не на метал, но очень интересно.

pptx

Fffffffffffffu

anonymous
(05.08.20 21:17:32 MSK)

Ответ на: комментарий от anonymous 05.08.20 21:17:32 MSK

Но если код оптимизирован под железо,

*не оптимизирован

anonymous
(05.08.20 21:21:59 MSK)

Ответ на: комментарий от anonymous 05.08.20 20:51:16 MSK

Максимум эту скорость посчитали (измерили на реальном образце) для специальном образом проложенных проводов от тактового генератора, питающих линий и земли.

Чё? Ничего не понял.

У меня есть подозрение, что ты говоришь про печатные платы, где еще можно гарантировать некоторое постоянство диэлекрической проницаемости.

Для печатных плат это как раз сложнее сделать.

Примени это же утверждение к себе - у тебя нет реальных цифр «скорости света».

Зачем они тебе, я не пойму? Ты хочешь что-то конкретное рассчитать, или просто языком потрепать?

Опять «высокоинтелектуальный» троллинг. А они только толщину провода уменьшают, или длину тоже?

А самому подумать что мешает? Вот тебе задача: длина, ширина и высота уменьшились в два раза. Как изменится сопротивление?

Puzan ★★★★★
(05.08.20 21:22:58 MSK)

Ответ на: комментарий от anonymous 05.08.20 21:17:32 MSK

Но если код оптимизирован под железо, то жит же неправильно определит горячие места

Почему? Железо профилирует исполняемый код. В случае трансметы, тк это full system бинарная трансляция, там профилируются, скажем, входы в транслированные регионы. Если мы говорим про partial bt, то там можно профилировать бранчи, чтобы найти горячий код. Затем JIT оптимизирует кусок кода, кладет его в code cache, а дальше вы все знаете.

Не проще транслировать нативный код в оптимизированный нативный код?

Зависит от исходной задачи и условий. У трансметы не было лицензии на х86 фронтенд, поэтому они пошли путем full system bt и сделали софтварную трансляцию х86 кода в свою архитектуру, фишкой которой в том числе была энергоэффективность.
Очевидно, что можно делать и partial bt, примеров, правда, сходу не приведу.

Но то что они не озаботились компилятором - про это я понял

Они не озаботились системной частью. Вот зачем им 2 ММУ: один под х86, а другой нативный, когда сам продукт предполагал запускать только х86 код, тк эта архитектура доминировала рынок вместе с виндой? А городить костыли вокруг гостевого ММУ, видимо, было малоэффективно.
Так что компилятор тут дело десятое, кмк.

Интересный подход конечно, больше похоже на аппаратную реализацию виртуальной машины

Это она и есть до какой-то степени: аппаратные фичи для эмуляции другой архитектуры с решением каких-то ее недостатков(?).

а не на метал

Ы?

anonymous
(05.08.20 21:26:57 MSK)

Ответ на: комментарий от anonymous 05.08.20 21:21:59 MSK

*не оптимизирован Ну не оптимизирван и что с того? Тогда от работы JIT’а будет больше пользы. Плюс не стоит забывать про динамическое профилирование кода.[br] Оптимизация происходит на «регионах». Регионы могут быть как простые базовые блоки(например от таргета бранча до другого бранча), так и множественные базовые блоки, соединенные переходами.[br]

anonymous
(05.08.20 21:29:55 MSK)

Ответ на: комментарий от anonymous 05.08.20 21:10:50 MSK

Ну пришло сообщение, строка инвалидироваллась, дальше что?

Прям только одно сообщение. :)

Чем больше кеш и чем больше этих кешей (для ядер), тем выше вероятность, что данные в кеше невалидны. И кеш превращается лишнее звено между памятью и процессором.

(И процессор с таким кешем превращается из процессора общего назначения в процессор последовательного выполнения команд над последовательно поступающими данными)

anonymous
(05.08.20 21:37:51 MSK)

Ответ на: комментарий от anonymous 05.08.20 21:29:55 MSK

я имею ввиду, что жит не видит весь код, поэтому может оптимизировать только его кусок. но из-за ограниченности видимости, он не может оптимизировать его правильно, потому что он видит только его часть. может этот бранч вообще надо было бы выбросить, а выполняется этот бранч и он горячий только потому что не была включена оптимизация при компиляции.

грубо говоря, жит видит горячие места, но не видит весь код. компилятор видит весь код, но не видит горячие места. зачем оставлять только худшее из двух, не проще сделать условное лто компилятором, а потом дооптимизировать житом по результатам профилирования?

в эльбрусе есть жит или они полагаются только на компилятор? вообще даже если только компилятор, то этот подход выглядит лучше. определение горячих мест - это конечно хорошо, но это лечение симптомов, а компиляция в нативный код - это лечение болезни.

anonymous
(05.08.20 21:39:20 MSK)

Ответ на: комментарий от Puzan 05.08.20 21:22:58 MSK

Для печатных плат это как раз сложнее сделать.

Вот и не надо тащить проблемы проектирования печатных плат. Думаю, в микропроцессорах своих проблем хватает, кроме вычисления скорости света.

Вот тебе задача: длина, ширина и высота уменьшились в два раза. Как изменится сопротивление?

Продолжаешь троллить. Ответный троллинг. Зачем высоту уменьшать? Высота не влияет на площадь.

anonymous
(05.08.20 21:44:46 MSK)

Ответ на: комментарий от anonymous 05.08.20 21:44:46 MSK

Зачем высоту уменьшать?

Будешь травить «колодцы» в металле?

Puzan ★★★★★
(05.08.20 21:56:21 MSK)

Ответ на: комментарий от anonymous 05.08.20 21:39:20 MSK

я имею ввиду, что жит не видит весь код, поэтому может оптимизировать только его кусок. но из-за ограниченности видимости

Предлагаю обратить внимание на гиры трансляций из презенташки. JIT, конечно, не видит весь код сразу, но он может, например, гулять по уже оттранслированому коду и подтягивать его.

он не может оптимизировать его правильно, потому что он видит только его часть

Что такое «правильно» в данном случае? Функциональная корректность?

а выполняется этот бранч и он горячий только потому что не была включена оптимизация при компиляции.

Предлагаю исходить из того, что в некотором коде есть некоторый горячий участок. И дальше уже все зависит от того, как ты строишь профилировку этого горячего участка и какой его кусок ты сможешь затащить в JIT. В презенташке рассказано про гиры оптимизаций. Так вот в gear3 у тебя может быть здоровенный кусок кода, из которого JIT сможет выкинуть все ненужные бранчи, а потом еще и устроить layout кода в соответствии с реальным профилем исполнения.

в эльбрусе есть жит или они полагаются только на компилятор?

В эльбрусе есть аппаратная поддержка для бинарного транслятора из х86, но этот режим, видимо, практически не используется.
Есть ненулевая вероятность, что они спекулятивное выполнение(я про коммит с роллбеком) каким-то образом примостырили для исполенения нативного кода(шансы небольшие), но тут надо не меня спрашивать, а например alexanius

не проще сделать условное лто компилятором, а потом дооптимизировать житом по результатам профилирования?

Все зависит от постановки задачи, опять же. То, что ты предлагаешь, звучит как partial bt система. Ее можно сделать, но для этого надо изначально проектировать такую систему. Эльбрус, трансмета изначально предполагались, как full system bt. Можно ли сейчас эльбрус переделать для частичной трансляции? Наверняка можно. Будут ли это делать? Сомневаюсь.

зачем оставлять только худшее из двух

Как я уже говорил выше, все зависит от постановки задачи.
Если речь идет о full system bt, при этом архитектуры слишком различаются(e2k vs x86, например), то jit тебе нужен для того, чтобы минимизировать падение производительности транслированного кода.

anonymous
(05.08.20 21:56:48 MSK)

Ответ на: комментарий от anonymous 05.08.20 21:56:48 MSK

Дисклеймер: про это все можно вычитать в [Jim_Smith,_Ravi_Nair]_Virtual_Machines_Versatile_Platforms_for_Systems_and_Processes.pdf [br] Про конкретные реализации и их результаты я, очевидно, говорить не могу.

anonymous
(05.08.20 21:59:40 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 5 6 →

←	Как починить конфликт libicu на Ubuntu 18.04?

Development

по разработке на Gtk+, с ютуба обучающие ролики посоветуйте, пожалуйста

→

Похожие темы