LINUX.ORG.RU

История изменений

Исправление Aber, (текущая версия) :

И ещё у nvidia есть поддержка тензорных ядер и чисел bf16,

В rx7000 (rdna3) тоже появились вычисления над bf16, как-раз из-за нейронок, а вот в rx6000 (rdna2) такого нету. Если кому интересно что это такое то тут инфа.
Кратко, операции ALU над fp16 выполняются в два раза быстрее чем над fp32, но перегнать fp32 в fp16 и обратно не просто, потому как размеры мантиссы и экспоненты отличают у этих типов. А вот bf16 по размерам экспоненты эквивалентен fp32, только в хвосте «откусанны» 16 бит у мантиссы, т.е. у bf16 1-бит знаковый, 8-бит экспонента (как и у fp32), но мантисса всего 7 бит.
Но у nvidia чуть круче, у них ALU работает с tf32, а это фактически bf19 =) т.е. bf16 + 3 дополнительных бита у мантиссы.

Исходная версия Aber, :

И ещё у nvidia есть поддержка тензорных ядер и чисел bf16,

В rx7000 (rdna3) тоже появились вычисления над bf16, как-раз из-за нейронок (в rx6000 (rdna2) такого нету). Если кому интересно что это такое то тут инфа.
Кратко, операции ALU над fp16 выполняются в два раза быстрее чем над fp32, но перегнать fp32 в fp16 и обратно не просто, потому как размеры мантиссы и экспоненты отличают у этих типов. А вот bf16 по размерам экспоненты эквивалентен fp32, только в хвосте «откусанны» 16 бит у мантиссы, т.е. у bf16 1-бит знаковый, 8-бит экспонента (как и у fp32), но мантисса всего 7 бит.
Но у nvidia чуть круче, у них ALU работает с tf32, а это фактически bf19 =) т.е. bf16 + 3 дополнительных бита у мантиссы.