LINUX.ORG.RU

Десктопный текстовый LLM

 , ,


0

1

Есть RTX3060 12ГБ. Есть ли в данный момент возможность на такую конфигурацию поставить standalone текстовый LLM? Чтобы хотя б на уровне ChatGPT 3.5 тупило (или лучше).

Параллельно вопрос - а контекст в такое-то количество токенов - это тоже какое-то фундаментальное ограничение? Нельзя его поставить больше? А то кидаешь кусками произведения для анализа, так оно начало забывает и делает мне смешно.

★★★★★

Конечно, даже лучше есть. Qwen какая-нибудь или та же Llama 3. Компилируешь llama.cpp, подбираешь соотв. gguf и кванизацию, чтобы в память влазила и вперёд. На их гитхабе есть вся инфа.

GPT 3.5 — это уже прошлый век.

stabilitron
()
Ответ на: комментарий от PPP328

Зайди на huggingface.co и поищи llama guf. Там есть кванты от разных авторов, без смс и регистрации.

Вот эту посмотри, должна влезть в твою карточку: https://huggingface.co/Qwen/Qwen2.5-14B-Instruct-GGUF, если выбрать 6 или 5-битную версию.

stabilitron
()

Параллельно вопрос - а контекст в такое-то количество токенов - это тоже какое-то фундаментальное ограничение? Нельзя его поставить больше? А то кидаешь кусками произведения для анализа, так оно начало забывает и делает мне смешно.

Контекст — это другое название предельной (точнее, единственной) длины входной последовательности.

С большой вероятностью, начиная с какой-то длины входных последовательностей существующие архитектуры моделей перестают работать, т.е. фундаментальное ограничение скорее всего тоже есть, но дело не в этом. Её можно «поставить больше», но фишка в том, что под каждую длину последовательности сеть нужно обучать заново (совсем, вообще) с нуля. Ну а это сам понимаешь. (И весить такая модель тоже будет ровно в столько же раз больше.)

intelfx ★★★★★
()
Последнее исправление: intelfx (всего исправлений: 1)