История изменений

Исправление One, 17.03.25 15:51 (текущая версия) :

Я же выше пишу, что это MoEs, где модель в 671B делится на 128 (допустим) экспертов, и она и активирует только 2–4 эксперта на токен, то на каждом шаге обрабатывается лишь ~1–3% параметров (например, 20B из 671B). Это радикально снижает объём данных, передаваемых через память, поэтому и теоретическая скорость в 819.3 GB/s делить не на 335.5 GB = 2.5t/s, а на 20B = 40t/s

Исходная версия One, 17.03.25 15:50: