История изменений
Исправление One, (текущая версия) :
Я же выше пишу, что это MoEs, где модель в 671B делится на 128 (допустим) экспертов, и она и активирует только 2–4 эксперта на токен, то на каждом шаге обрабатывается лишь ~1–3% параметров (например, 20B из 671B). Это радикально снижает объём данных, передаваемых через память, поэтому и теоретическая скорость в 819.3 GB/s делить не на 335.5 GB = 2.5t/s, а на 20B = 40t/s
Исходная версия One, :
Я же выше пишу, что это MoEs, где модель в 671B делится на 128 (допустим) экспертов, и она и активирует только 2–4 эксперта на токен, то на каждом шаге обрабатывается лишь ~1–3% параметров (например, 20B из 671B). Это радикально снижает объём данных, передаваемых через память, поэтому и теоретическая скорость в 819.3 GB/s делить не на 335.5 GB, а на 20B = 40t/s