БомжИИ

ChatGPT.

posixbit ★★★
(06.12.24 13:35:11 MSK)

покупать дорогой комп не хочется

Это так не работает.

llama-мозгов 15b

Все эти 16b/q2 - это буквально ДНО, не заслуживающее внимания.

Сейчас 2025 год, если у тебя нет хотя бы RTX3060, 64GB RAM и 8x CPU то ты в заднице по возможностям локально гонять LLM с приемлимым результатом и проще юзать бесплатные аналоги в интернете или бесплатные API с лимитами, как тебе озвучили в прошлом треде.

~~XOXO~~ ★
(06.12.24 14:16:21 MSK)

Ответ на: комментарий от XOXO 06.12.24 14:16:21 MSK

Сейчас 2025 год

Палишься

router ★★★★★
(06.12.24 14:19:45 MSK)

Ответ на: комментарий от XOXO 06.12.24 14:16:21 MSK

то ты в заднице по возможностям локально гонять LLM с приемлимым результатом

Смотря что считать приемлимым результатом. Я гоняю 9b llama с 5-битным квантованием на cpu и результатом в целом доволен. Хотя для кого-то наверное это жутко медленно.

Khnazile ★★★★★
(06.12.24 14:23:39 MSK)

Ответ на: комментарий от Khnazile 06.12.24 14:23:39 MSK

результатом в целом доволен

на cpu

llama 9b/q5

Ну что тут скажешь… Амиши тоже довольны результатом своей деятельности, своими примитивными орудиями труда и упряжками лошадей вместо пикапа, комбайна и трактора. «Довольность» - это субъективный показатель.

Мне странно другое, сейчас конплюкхтер с хотя бы RTX3060, 64GB RAM и 8x CPU стоит менее 100к рублей, железо никогда еще не было таким доступным, но уже позволит так не страдать с LLM.

~~XOXO~~ ★
(06.12.24 14:37:42 MSK)
Последнее исправление: XOXO 06.12.24 14:39:21 MSK (всего исправлений: 1)

Ответ на: комментарий от XOXO 06.12.24 14:16:21 MSK

гонять LLM с приемлимым результатом

Ожидание генерации до 10 минут на запрос мне подходит, главное, что бы рерайт (основная цель это рерайт текстов до 3 тысяч символов на запрос) был более-менее не глючным. Сторонние сервисы не рассматриваю, хочу свое да и покопаться в теме интересно.

~~skidphysic~~
(06.12.24 14:40:07 MSK) автор топика

Ответ на: комментарий от XOXO 06.12.24 14:37:42 MSK

Сейчас 2025 год

железо никогда еще не было таким доступным

Не, точно палишься. Вернись обратно в своё время

И я очень надеюсь, что эта наша вероятностная линия :)

router ★★★★★
(06.12.24 14:42:36 MSK)

Ответ на: комментарий от XOXO 06.12.24 14:37:42 MSK

стоит менее 100к рублей

Если бы они у меня были, тем с дешевым железом я бы не создавал :D

~~skidphysic~~
(06.12.24 14:43:09 MSK) автор топика

Ответ на: комментарий от skidphysic 06.12.24 14:40:07 MSK

основная цель это рерайт текстов до 3 тысяч символов на запрос был более-менее не глючным.

Если текст русскоязычный, то я заранее хочу тебя огорчить

~~XOXO~~ ★
(06.12.24 14:44:14 MSK)

Ответ на: комментарий от XOXO 06.12.24 14:44:14 MSK

Да, русскоязычный.

~~skidphysic~~
(06.12.24 14:45:01 MSK) автор топика

Ответ на: комментарий от router 06.12.24 14:42:36 MSK

Ахах. Повеселили этим внезапным 2025-м годом.))

wandrien ★★★
(06.12.24 14:47:52 MSK)

Ответ на: комментарий от skidphysic 06.12.24 14:45:01 MSK

Иностранные llm на русскоязычных текстах целенаправленно не тренируют, результат будет плохой. Нужна «местная» модель, а их не так чтобы много дают погонять локально. Во всяком случае, без регистрации и СМС.

Khnazile ★★★★★
(06.12.24 14:49:09 MSK)

Что посоветуете иное

Забить и не тратить время и деньги на этот хайп-трейн

Kolins ★★★★★
(06.12.24 14:53:08 MSK)

Ответ на: комментарий от XOXO 06.12.24 14:37:42 MSK

Это с gpu надо страдать. Когда на десктоп завезут SR-IOV, тогда можно будет рассуждать о доступности.

Khnazile ★★★★★
(06.12.24 14:56:00 MSK)

Ответ на: комментарий от router 06.12.24 14:42:36 MSK

И я очень надеюсь, что эта наша вероятностная линия :)

На декабрь 2024 это объективный факт. Давай вместе посчитаем:

AMD Ryzen 7 7700 (8core) ~28к

RTX 3060 ~40к

2x32GB Patriot Viper Elite II ~14k

Итого: 82к, на сдачу плата\куллер\ssd

~~XOXO~~ ★
(06.12.24 14:57:10 MSK)

Ответ на: комментарий от XOXO 06.12.24 14:57:10 MSK

на сдачу плата\куллер\ssd

Большое заблуждение. Вcя это мелочь стоит не мало в сумме, дкмаю, что вся сдача уйдёт на блок питания и ssd, а кулер, ящик, и минимальный набор переферии придётся искать на помойке.

Khnazile ★★★★★
(06.12.24 15:32:59 MSK)
Последнее исправление: Khnazile 06.12.24 15:33:19 MSK (всего исправлений: 1)

смари, тут, на мой взгляд, тема норм раскрыта

olelookoe ★★★
(06.12.24 15:42:08 MSK)

Ответ на: комментарий от XOXO 06.12.24 14:16:21 MSK

Сейчас 24 год и основное требование - хотя бы 24Gb VRAM от nvidia с cuda ядрами потому что 15B без квантизации в 16Gb VRAM обычно не влезает. Все остальное вообще не важно, любая комплектуха пятилетней давности подойдет.

Obezyan ☆
(06.12.24 16:01:09 MSK)

Ответ на: комментарий от olelookoe 06.12.24 15:42:08 MSK

БомжИИ

4 млн. р

einhander ★★★★★
(06.12.24 16:03:42 MSK)

Ответ на: комментарий от olelookoe 06.12.24 15:42:08 MSK

Извините, но это полная херня, про «народную» RTX A4000 16Gb и оптимальную RTX A5000 24Gb вообще ни слова. Ну хоть про RTX A6000 упомянул, напутано в деталях ранжировки карт и в вариантах сборок из двух и более. Детально разбирать даже смысла не вижу.

Это не справочник, а сборная солянка гуглежа пропущенная через сеть, итоговое качество такое же как на картинке в начале статьи: вроде красиво пока не вчитываешься.

Obezyan ☆
(06.12.24 16:21:46 MSK)

Ответ на: комментарий от Obezyan 06.12.24 16:01:09 MSK

Сейчас 24 год и основное требование - хотя бы 24Gb VRAM от nvidia с cuda ядрами потому что 15B без квантизации в 16Gb VRAM обычно не влезает.

Согласен, но речь шла о бомж-машине, поэтому был предложен RTX3060 c 12GB VRAM как минимально возможный сетап

~~XOXO~~ ★
(06.12.24 16:24:22 MSK)

Ответ на: комментарий от XOXO 06.12.24 16:24:22 MSK

Согласен, но речь шла о бомж-машине, поэтому был предложен RTX3060 c 12GB VRAM как минимально возможный сетап

На самом деле тут интересный вопрос что будет лучше: видеокарта с 12Gb на которой можно использовать только модели с сильной квантизаций или современный процессор + BitNet.cpp/Llama.cpp? Я не знаю если честно ответа.

Obezyan ☆
(06.12.24 16:40:49 MSK)

Ответ на: комментарий от Obezyan 06.12.24 16:21:46 MSK

Извините, но это полная херня

железосрач поддержать желания нет, все претензии к автору
в целом +- километр он со своей задачей справился
по крайней мере этот текст отсекает авантюры типа «да нахера нам эти гигабайты, возьмем интел ай3, на встройке будет норм» и заставляет задумаццо о гораздо более адекватных бюджетах

olelookoe ★★★
(06.12.24 16:46:11 MSK)

Ответ на: комментарий от Obezyan 06.12.24 16:01:09 MSK

А если несколько видеокарт подключить, чтобы суммарно было не меньше 24Gb VRAM? Так прокатит? Две 3060 стоят намного дешевле чем одна 4090.

vbcnthfkmnth123 ★★★★★
(06.12.24 16:49:45 MSK)
Последнее исправление: vbcnthfkmnth123 06.12.24 16:50:19 MSK (всего исправлений: 1)

Ответ на: комментарий от vbcnthfkmnth123 06.12.24 16:49:45 MSK

Так прокатит?

Да, разумеется. ollama из коробки с этим работает.

А вот для llama.cpp есть кроме того даже экспериментальная возможность RPC распределить задачи по нескольким машинам.

А вот тут есть подробно описанная саццес-стори применения RPC

~~XOXO~~ ★
(06.12.24 17:21:06 MSK)

Ответ на: комментарий от Obezyan 06.12.24 16:40:49 MSK

или современный процессор + BitNet.cpp/Llama.cpp

Здесь большой интерес представляют новые Apple Silicon M3\M4 и их возможности по shared-VRAM

~~XOXO~~ ★
(06.12.24 17:25:47 MSK)

Ответ на: комментарий от olelookoe 06.12.24 16:46:11 MSK

железосрач поддержать желания нет, все претензии к автору

Я ни в коем случае не имел претензий к вам, просто указал что не стоит руководствоваться этим «справочником».

в целом +- километр он со своей задачей справился

ну, если мерять в километрах, то соглашусь.

Obezyan ☆
(06.12.24 20:10:29 MSK)
Последнее исправление: Obezyan 06.12.24 20:15:13 MSK (всего исправлений: 1)

Ответ на: комментарий от vbcnthfkmnth123 06.12.24 16:49:45 MSK

Для большинства архитектур сетей - вполне себе вариант для использования, но бывают проблемы при создании/обучении.

Obezyan ☆
(06.12.24 20:13:39 MSK)

Ответ на: комментарий от XOXO 06.12.24 17:25:47 MSK

Здесь большой интерес представляют новые Apple Silicon M3\M4 и их возможности по shared-VRAM

Вообще не копал в эту сторону, было бы интересно послушать тех кто сталкивался.

Obezyan ☆
(06.12.24 20:14:30 MSK)
Последнее исправление: Obezyan 06.12.24 20:14:45 MSK (всего исправлений: 1)

GeForce P106-100 если как то объединить 3 такие. Может норм будет, но это надо матчасть изучать.

user1087
(06.12.24 21:02:21 MSK)

А не жалко денег на комп и лепиздричество для недонейронок?

anonymous
(07.12.24 07:47:42 MSK)

Ответ на: комментарий от skidphysic 06.12.24 14:40:07 MSK

главное, что бы рерайт

Ну т.е. ты мерзкий спамер. Зачем тебе помогать.

ox55ff ★★★★★
(07.12.24 07:51:02 MSK)

Ответ на: комментарий от anonymous 07.12.24 07:47:42 MSK

И нервов на их использование. Сколько этих моделек не пробовал, все бесполезные.

anonymous
(07.12.24 10:15:46 MSK)

Ответ на: комментарий от router 06.12.24 14:19:45 MSK

ошибка округления же ))

aol ★★★★★
(07.12.24 10:35:09 MSK)

Ответ на: комментарий от ox55ff 07.12.24 07:51:02 MSK

мерзкий спамер

Как и 99% world wide web, не я это начал, условия диктуют поисковики.

~~skidphysic~~
(07.12.24 11:13:45 MSK) автор топика

Ответ на: комментарий от skidphysic 07.12.24 11:13:45 MSK

Не сомневаюсь, что если тебя поставить перед выбором стать проститутом или чинить трубы, то трубы ты не чинил бы.

anonymous
(07.12.24 11:39:36 MSK)

llama

Бесполезное говно

anonymous
(07.12.24 11:56:54 MSK)

Ответ на: комментарий от anonymous 07.12.24 11:39:36 MSK

Наверняка, ты один из тех радикалов, кто во времена «рекламной сети яндекса с гуглом» рекламу не покупает, а считает, что хороший продукт в рекламе не нуждается?

~~skidphysic~~
(07.12.24 12:00:54 MSK) автор топика

Ответ на: комментарий от skidphysic 07.12.24 12:00:54 MSK

Действительно хороший продукт действительно не нуждается в рекламе. Тем более от «этих» компаний.

anonymous
(07.12.24 12:36:57 MSK)

Ответ на: комментарий от anonymous 07.12.24 12:36:57 MSK

«Если бы у меня было 4 доллара, 3 я потратил бы на рекламу.» (с) Генри Форд. Но, можно впасть в радикализм и бороться с ветряными мельницами до пенсии.

~~skidphysic~~
(07.12.24 13:05:19 MSK) автор топика
Последнее исправление: skidphysic 07.12.24 13:09:57 MSK (всего исправлений: 1)

Ответ на: комментарий от skidphysic 07.12.24 13:05:19 MSK

Но, можно впасть в радикализм и бороться с ветряными мельницами до пенсии.

Лучше

СПОНСОР ЭТОГО КОММЕНТАРИЯ АССЕНИЗАТОРСКИЕ УСЛУГИ! БЫСТРО! КАЧЕСТВЕННО! НЕДОРОГО!

впасть

СПОНСОР ЭТОГО КОММЕНТАРИЯ НАТЯЖНЫЙ ПОТОЛКИ ОТ ДЯДИ ТОЛИЙ! НАТЯНЕМ ПО САМЫЙ ПОТОЛОК!

в

СПОНСОР ЭТОГО КОММЕНТАРИЯ ОЧЕРЕДНАЯ КАКАЯ-НИБУДЬ ХЕРНЯ! НУ КУПИ ПЖЛ!

радикализм, чем просто наблюдать и спонсировать капрофилию на лицо.

anonymous
(07.12.24 13:20:09 MSK)

Ответ на: комментарий от Obezyan 06.12.24 16:40:49 MSK

ИИ для генерации картинок (Stable Diffusion) умеют же уже частично держать в обычной, частично в видео, и работать с небольшими кусками видеопамяти, и на 8 - 12 Гб уже вполне с приличной скоростью получается. Текстовые так не умеют?

anonymous
(07.12.24 13:33:50 MSK)

Я бы подождал января и Intel Arc B580 и B570, по слайдикам у Интел очень мощный, но бюджетный AI получился, куда быстрее 4060 и за 25к, да ещё с минимально нужной памятью, в 12гб

One ★★★★★
(07.12.24 13:40:32 MSK)

Ответ на: комментарий от anonymous 07.12.24 13:33:50 MSK

Текстовые так не умеют?

Насколько я помню, нет. Разные архитектуры, текстовые это LSTM/Transformers в основном, картинки это Diffusers.

Obezyan ☆
(07.12.24 14:56:47 MSK)

Ответ на: комментарий от Obezyan 06.12.24 20:14:30 MSK

Вообще не копал в эту сторону, было бы интересно послушать тех кто сталкивался.

Сегодня погонял MacBook M3 Pro c 18Gb ollama-benchmark, для тех размерностей сеток, что он сам подгружает на основе размера RAM:


----------Apple Mac---------
{
    "system": "Darwin",
    "memory": 18.0,
    "cpu": "Apple M3 Pro",
    "gpu": "Apple M3 Pro",
    "os_version": "macOS 15.0.1 (24A348)",
    "system_name": "macOS",
    "model": "Mac15,7",
}


{
    "mistral:7b": "28.51",
    "llama3.1:8b": "24.81",
    "phi3:3.8b": "43.66",
    "qwen2:7b": "28.03",
    "gemma2:9b": "21.04",
    "llava:7b": "29.19",
    "llava:13b": "16.57",
    "ollama_version": "0.4.7"
}

Хочу отметить что это очень неплохой результат для ноута, на машиных с 32Gb и 64Gb и M3 Max будет еще кратно лучше, так что перспективы есть.

~~XOXO~~ ★
(07.12.24 20:58:12 MSK)

Ответ на: комментарий от XOXO 07.12.24 20:58:12 MSK

это очень неплохой

Офигенный это результат, на уровне очень комфортного использования LLM для личных целей

One ★★★★★
(07.12.24 21:21:14 MSK)

Ответ на: комментарий от XOXO 07.12.24 20:58:12 MSK

Спасибо за информацию. Обычно я использую 15B сети без квантизации, но и для 7-8B это хороший результат.

Obezyan ☆
(07.12.24 21:23:41 MSK)

Ответ на: комментарий от XOXO 07.12.24 20:58:12 MSK

Попробовал так же codestarl 22B размера c квантизацией, включив --verbose,

промт: «Write simple and fast function for clalculate factorial in Go»:

Q4, размер модели 12 GB:

total duration:       25.292387042s
load duration:        13.215375ms
prompt eval count:    18 token(s)
prompt eval duration: 1.496s
prompt eval rate:     12.03 tokens/s
eval count:           228 token(s)
eval duration:        23.78s
eval rate:            9.59 tokens/s

Что тоже вполне неплохо, жить можно.

~~XOXO~~ ★
(07.12.24 22:06:51 MSK)

Ответ на: комментарий от Obezyan 06.12.24 16:01:09 MSK

хотя бы 24Gb VRAM от nvidia с cuda ядрами

Tesla K40?

Shadow ★★★★★
(07.12.24 22:14:00 MSK)

Ответ на: комментарий от XOXO 06.12.24 14:16:21 MSK

Сейчас 2025 год, если у тебя нет хотя бы RTX3060

Да ты чо, RTX 3060 Ti не хватит с его 8ю гигами, нужна видюха за $2000 где будет 24 Гб. Почему? Да, потому что всю модель ясное дело будет грузиться в VRAM. Тоже самое с другими нейронками: Stable Diffusion и т.д.

Skullnet ★★★★☆
(07.12.24 22:23:27 MSK)
Последнее исправление: Skullnet 07.12.24 22:26:46 MSK (всего исправлений: 1)

Похожие темы