История изменений

Не с Q8, блин, а с Q6

Полноценная сеть использует fp32 (Q32). Часто имеет смысл использовать ее с точностью fp16/bf16 (Q16). Все что ниже это отсечение топором лобных долей. Там не важно уже Q8 или Q6, Q6 или Q4, слишком сильное загрубление.

Добавлю про квантизацию, а то большинство просо не в курсе походу: сильная квантизация работает только с небольшими моделями. Если модель имеет больше ~6.7B параметров то Q8 превращает такую модель в бредогенератор. Пруф.

Причина этого в следующем - современные авторегрессионные LLMки выдают токены последовательно. При сильной квантизации вероятность «выброса» (генерации ошибочного токена) достаточно велика чтобы это происходило и уводило генерируемый ответ в бред.

Поэтому, сколько бы у вас там ресурсов не было, старайтесь использовать сети с квантизацией не ниже 16 (или без нее). Лучше выберите такую же сеть, но с меньшим количеством параметров и большей квантизацией при прочих равных.

Не с Q8, блин, а с Q6

Полноценная сеть использует fp32 (Q32). Часто имеет смысл использовать ее с точностью fp16/bf16 (Q16). Все что ниже это отсечение топором лобных долей. Там не важно уже Q8 или Q6, Q6 или Q4, слишком сильное загрубление.

Добавлю про квантизацию, а то большинство просо не в курсе походу: сильная квантизация работает только с небольшими моделями. Если модель имеет больше ~6.7B параметров то Q8 превращает такую модель в бредогенератор. Пруф.

Причина этого в следующем - современные авторегрессионные LLMки выдают токены последовательно. При сильной квантизации вероятность «выброса» (генерации ошибочного токена) достаточно велика чтобы это происходило и уводило генерируемый ответ в бред.

Поэтому, сколько бы у вас там ресурсов не было, старайтесь использовать сети с квантизацией не ниже 16 (или без нее). Лучше выберите такую же сеть, но с меньшим количеством параметров, но большей квантизацией при прочих равных.

Не с Q8, блин, а с Q6

Полноценная сеть использует fp32 (Q32). Часто имеет смысл использовать ее с точностью fp16/bf16 (Q16). Все что ниже это отсечение топором лобных долей. Там не важно уже Q8 или Q6, Q6 или Q4, слишком сильное загрубление.

Не с Q8, блин, а с Q6

Полноценная сеть использует fp32 (Q32). Часто имеет смысл использовать ее с точностью fp16 (Q16). Все что ниже это отсечение топором лобных долей. Там не важно уже Q8 или Q6, Q6 или Q4, слишком сильное загрубление.