LINUX.ORG.RU

Никакую. Но если совсем охота, то lite. Зырь покацанные, они всегда рядом с полными предлагаются.

Eulenspiegel
()
Ответ на: комментарий от skidphysic

там чОткие проверки на системные требования.
Вывалится сразу с ашыбкой.

если не изменяет память:

  • lite - от 4Gb VideoRam
  • full - от 8Gb VRAM
Eulenspiegel
()
Ответ на: комментарий от skidphysic

Она обязательно должна весь файл модели в память загрузить?

да.

какая структура у файлов моделей, там чисто веса или как-то по типу msql?

Читай. ONNX и другой изврат.

Eulenspiegel
()
Ответ на: комментарий от Eulenspiegel

проверки на системные требования

Ясно, а есть что-то проще для локалки, подходящее для этого проца и 4 гигами озушки - задача, в общем-то тупой рерайт описания товаров.

skidphysic
() автор топика

Онлайн бесплатные версии copilot и chatgpt чем не устриавают? Чтобы сравниться с ними, нужна приличная видеокарта

One ★★★★★
()
Ответ на: комментарий от One

Онлайн бесплатные

Api платное, за каждый товар платить не менее рубля, да еще если не понравится с перегенерацией - обременительно.

skidphysic
() автор топика
Последнее исправление: skidphysic (всего исправлений: 1)

Недавно Alibaba опубликовали свой новый шедевр — QwQ — рефлексирующую нейросеть с 32 млрд параметров, которая выдаёт результаты, сравнимые с ответами самых топовых сеток, ценой времени на ответ, естественно: https://qwenlm.github.io/blog/qwq-32b-preview/

пусть с тормозами и ответами по полчаса

В теории, если ты сделаешь своп достаточно большим, то сможешь на процессоре запускать какую угодно сеть. Но это будет ад.

на 4 гигах свободной оперы

Если хочешь нормальной интерактивности, то лучше чтобы модель влазила в RAM + VRAM. Посмотри какие-то квантованные модели, те же Qwen 2.5, например:

stabilitron
()
Ответ на: комментарий от stabilitron

квантованные модели, те же Qwen 2.5

У него будут дико тупить, даже 1B

One ★★★★★
()
Ответ на: комментарий от skidphysic

Не, пусть с тормозами и ответами по полчаса, разве не запустится допустьм лама 3 8b?

Нет

Она обязательно должна весь файл модели в память загрузить?

Да, особенность архитектуры transformers

Еще вопрос, какая структура у файлов моделей, там чисто веса или как-то по типу msql?

JSON based

Obezyan
()
Ответ на: комментарий от stabilitron

В теории, если ты сделаешь своп достаточно большим

Похоже, что с llama.cpp даже без свопа можно, там тензоры по умолчанию ммапятся с PROT_READ.

stabilitron
()
Ответ на: комментарий от skidphysic

Api платное, за каждый товар платить не менее рубля, да еще если не понравится с перегенерацией - обременительно.

Так сделай своё апи в виде обвязки вокруг браузера. Последний хром сокеты из DOM поддерживает. Так что делов на недельку. Ещё как вариант, можешь найти людей, кто готов скинуться на GPU. Я вам всем предоставлю физическое место под сервер. У меня даже мат. плата с процом осталась на 12 x1 PCI-e с райзерами и кучей блоков питания ATX. Мне по итогу, тоже будет нужно, но я планирую минимум 70b запускать с текст2спич.

foror ★★★★★
()
Последнее исправление: foror (всего исправлений: 7)
Ответ на: комментарий от skidphysic

Api платное, за каждый товар платить не менее рубля, да еще если не понравится с перегенерацией - обременительно.

Если у тебя интерес в коммерческом применении технологии, то логично все же потратить деньги на исследование подойдет оно тебе или нет.

Чтобы не покупать сразу дорогое железо можно для начала можно арендовать VPS с GPU.

Если совсем денег тратить не хочется, то есть еще google colab (доступен всем у кого gmail имеется), который бесплатно дает GPU, хотя и с сильными лимитами по времени, причем алгоритм лимита у него какой-то мудреный, но на несколько часов в неделю должно хватить. Достаточно, чтобы поиграть с моделью на колабе. Далее питоновский ipynb (jupyter-notebook) на колаб и вперед.

Таким образом примерно поймешь оно тебе вообще надо или не надо, потом если все же надо ищи варианты подешевле. В принципе, если убедился, что есть ощутимая коммерческая выгода, то разовые расходы на комп за 100-200 крублей вообще ни о чем. Если бизнес их не может позволить, значит пока оно и не нужно.

praseodim ★★★★★
()
Последнее исправление: praseodim (всего исправлений: 2)
Ответ на: комментарий от foror

Так сделай своё апи в виде обвязки вокруг браузера.

Что-то не понял, от этого цена использования API изменится? Речь же в данном случае не про локальную модель.

praseodim ★★★★★
()

n3710

Гггг, поржал!) У меня на i3-N305 и 32 ГБ ОЗУ было, хмм, 1 токен в секунду. А у тебя, наверное, будет 0,3 токена/с, это оооооооооочень долго.

somemong
()

Можно просто swap огромный сделать если скорость не важна, у меня когда-то работали модели 80+гб весом на 64гб оперы так.

Либо если данные не жалко то попробовать бесплатные апи, например mistral раздает 1ккк токенов в месяц.

WSL_user
()
Ответ на: комментарий от somemong

И почти сразу упираешься в лимиты.

Только если в промышленных масштабах решил работать. Там вначале дают самую мощную модель, там да, лимиты быстро уходят. А потом пересаживают на мини, там у меня ещё ни разу лимиты не вылазили, хотя я довольно много его пользую по работе.

foror ★★★★★
()
Ответ на: комментарий от WSL_user

Так и сделал, но теперь другая проблема:

llama_new_context_with_model: n_ctx_per_seq (512) < n_ctx_train (131072) -- the full capacity of the model will not be utilized
{'id': 'cmpl-45814bce-8c1a-4a09-bbe0-886b484d0e72', 'object': 'text_completion', 'created': 1733311612, 'model': 'Llama-3.2-3B-Instruct-Q3_K_L.gguf', 'choices': [{'text': 'Как синтезировать ******? — Это не только вредно, но и незаконно. Мне нужно помочь вам с чем-то другим.', 'index': 0, 'logprobs': None, 'finish_reason': 'stop'}], 'usage': {'prompt_tokens': 11, 'completion_tokens': 24, 'total_tokens': 35}}


- есть ли модели без цензуры?

skidphysic
() автор топика
Ответ на: комментарий от skidphysic

Есть модели с легкой цензурой и есть модели с которых снята цензура.

Судя по описанию вашей задачи вам подходят первые, к таким относятся самые последние llama, mistral, qwen.

Если же вам надо спрашивать запрещенные темы то тут я не подскажу какие хорошие, стоит на reddit поискать в сообществах. Важно только учитывать что очень часто при снятии цензуры у модели в некоторой степени едет крыша, так что если вам нужна хоть малейшая уверенность в результате лучше не использовать такие.

WSL_user
()
Последнее исправление: WSL_user (всего исправлений: 1)
Ответ на: комментарий от stabilitron

Qwen 2.5, например

В моем случае результат с ней лучше, прям хорошо перефразирует описания товаров, спасибо! А заюзал через llama-cpp-python модель qwen2.5-coder-7b-instruct-q3_k_m.gguf, примерно 5 минут отвечает на таком железе:

Intel© Core™2 Duo CPU P7550 @ 2.26GHz × 2
RAM 4Gb
Eulenspiegel One Obezyan foror praseodim somemong WSL_user

skidphysic
() автор топика
Ответ на: комментарий от skidphysic

На таком старье 5 минут это неплохо. Но все же надо немного следить за тем, что оно там наперефразирует, даже редкие, но ошибки могут быть.

praseodim ★★★★★
()
Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от praseodim

Заюзал qwen2.5-coder-0.5b-instruct-q2_k.gguf - стало еще быстрее, результат генерации вроде не хуже, на ней и остановлюсь.

skidphysic
() автор топика
Ответ на: комментарий от skidphysic

В llama.cpp есть возможность спекулятивного декодинга — это когда вывод основной модели предсказывается некоторым образом по выводу упрощённой драфт-модели, с гарантированным сохранением качества результата.

SpecInfer uses an LLM as a token tree verifier instead of an incremental decoder, which significantly reduces the end-to- end latency and computational requirement for serving gen- erative LLMs while provably preserving model quality.

По ссылке можно посмотреть примеры использования: https://github.com/ggerganov/llama.cpp/blob/master/examples/speculative/README.md

Говорят, что в таком варианте использования программы скорость генерации ощутимо возрастает. Лично подтвердить не могу, так как фичей пока не пользовался :)

stabilitron
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)