LINUX.ORG.RU

История изменений

Исправление ncrmnt, (текущая версия) :

Много. 70b параметров со скрипом залезает в 2 Nvidia Tesla P40 с 4-бит квантованием и 8кб размером контекста (Meditron). 72B с 32к контекстом (Smaug): 20 из 81 слоя на GPU, остальное на CPU, что жрет примерно 110 гиг оперативы помимо 48 гиг видеопамяти.

Эта, при тех же размерах квантования/контекста, думаю потребует штук 12 видях для инференса, не меньше.

Исправление ncrmnt, :

Много. 70b параметров со скрипом залезает в 2 Nvidia Tesla P40 с 4-бит квантованием и 8кб размером контекста (Meditron). 72B с 32к контекстом (Smaug): 20 из 81 слоя на GPU, остальное на CPU, что жрет примерно 110 гиг оперативы помимо 48 гиг видеопамяти.

Эта, при тех же размерах, думаю потребует штук 12 видях для инференса, не меньше.

Исходная версия ncrmnt, :

Много. 70b параметров со скрипом залезает в 2 Nvidia Tesla P40 с 4-бит квантованием и 8кб размером контекста (Meditron). 72B с 32к контекстом (Smaug): 20 из 81 слоя на GPU, остальное на CPU, что жрет примерно 110 гиг оперативы помимо 48 гиг видеопамяти.