LINUX.ORG.RU

БомжИИ

 


2

3

Продолжение темы, на тесте в которой стало ясно, насколько неприлично слаб ноут для нейронки, покупать дорогой комп не хочется, что скажете о такой бомж-сборке (онли линукс) для llama-мозгов 15b (или выше, в зависимости, насколько оживленно будет думать):

Cpu: Xeon E3-1245 V3
Gpu: GeForce P106-100
Mother: MACHINIST H81M-PRO S1
Ram: ddr3 8gb x 2
Ssd: m2 256gb
Все барахло кроме матери и ссдюка планируется купить на авито. Что посоветуете иное (кроме как купить ламборгини для поездок на огород)?



Последнее исправление: skidphysic (всего исправлений: 1)

покупать дорогой комп не хочется

Это так не работает.

llama-мозгов 15b

Все эти 16b/q2 - это буквально ДНО, не заслуживающее внимания.

Сейчас 2025 год, если у тебя нет хотя бы RTX3060, 64GB RAM и 8x CPU то ты в заднице по возможностям локально гонять LLM с приемлимым результатом и проще юзать бесплатные аналоги в интернете или бесплатные API с лимитами, как тебе озвучили в прошлом треде.

XOXO
()
Ответ на: комментарий от XOXO

то ты в заднице по возможностям локально гонять LLM с приемлимым результатом

Смотря что считать приемлимым результатом. Я гоняю 9b llama с 5-битным квантованием на cpu и результатом в целом доволен. Хотя для кого-то наверное это жутко медленно.

Khnazile ★★★★★
()
Ответ на: комментарий от Khnazile

результатом в целом доволен

на cpu

llama 9b/q5

Ну что тут скажешь… Амиши тоже довольны результатом своей деятельности, своими примитивными орудиями труда и упряжками лошадей вместо пикапа, комбайна и трактора. «Довольность» - это субъективный показатель.

Мне странно другое, сейчас конплюкхтер с хотя бы RTX3060, 64GB RAM и 8x CPU стоит менее 100к рублей, железо никогда еще не было таким доступным, но уже позволит так не страдать с LLM.

XOXO
()
Последнее исправление: XOXO (всего исправлений: 1)
Ответ на: комментарий от XOXO

гонять LLM с приемлимым результатом

Ожидание генерации до 10 минут на запрос мне подходит, главное, что бы рерайт (основная цель это рерайт текстов до 3 тысяч символов на запрос) был более-менее не глючным. Сторонние сервисы не рассматриваю, хочу свое да и покопаться в теме интересно.

skidphysic
() автор топика
Ответ на: комментарий от XOXO

Сейчас 2025 год

железо никогда еще не было таким доступным

Не, точно палишься. Вернись обратно в своё время

И я очень надеюсь, что эта наша вероятностная линия :)

router ★★★★★
()
Ответ на: комментарий от skidphysic

Иностранные llm на русскоязычных текстах целенаправленно не тренируют, результат будет плохой. Нужна «местная» модель, а их не так чтобы много дают погонять локально. Во всяком случае, без регистрации и СМС.

Khnazile ★★★★★
()
Ответ на: комментарий от router

И я очень надеюсь, что эта наша вероятностная линия :)

На декабрь 2024 это объективный факт. Давай вместе посчитаем:

AMD Ryzen 7 7700 (8core) ~28к

RTX 3060 ~40к

2x32GB Patriot Viper Elite II ~14k

Итого: 82к, на сдачу плата\куллер\ssd

XOXO
()
Ответ на: комментарий от XOXO

на сдачу плата\куллер\ssd

Большое заблуждение. Вcя это мелочь стоит не мало в сумме, дкмаю, что вся сдача уйдёт на блок питания и ssd, а кулер, ящик, и минимальный набор переферии придётся искать на помойке.

Khnazile ★★★★★
()
Последнее исправление: Khnazile (всего исправлений: 1)
Ответ на: комментарий от XOXO

Сейчас 24 год и основное требование - хотя бы 24Gb VRAM от nvidia с cuda ядрами потому что 15B без квантизации в 16Gb VRAM обычно не влезает. Все остальное вообще не важно, любая комплектуха пятилетней давности подойдет.

Obezyan
()
Ответ на: комментарий от olelookoe

Извините, но это полная херня, про «народную» RTX A4000 16Gb и оптимальную RTX A5000 24Gb вообще ни слова. Ну хоть про RTX A6000 упомянул, напутано в деталях ранжировки карт и в вариантах сборок из двух и более. Детально разбирать даже смысла не вижу.

Это не справочник, а сборная солянка гуглежа пропущенная через сеть, итоговое качество такое же как на картинке в начале статьи: вроде красиво пока не вчитываешься.

Obezyan
()
Ответ на: комментарий от Obezyan

Сейчас 24 год и основное требование - хотя бы 24Gb VRAM от nvidia с cuda ядрами потому что 15B без квантизации в 16Gb VRAM обычно не влезает.

Согласен, но речь шла о бомж-машине, поэтому был предложен RTX3060 c 12GB VRAM как минимально возможный сетап

XOXO
()
Ответ на: комментарий от XOXO

Согласен, но речь шла о бомж-машине, поэтому был предложен RTX3060 c 12GB VRAM как минимально возможный сетап

На самом деле тут интересный вопрос что будет лучше: видеокарта с 12Gb на которой можно использовать только модели с сильной квантизаций или современный процессор + BitNet.cpp/Llama.cpp? Я не знаю если честно ответа.

Obezyan
()
Ответ на: комментарий от Obezyan

Извините, но это полная херня

железосрач поддержать желания нет, все претензии к автору
в целом +- километр он со своей задачей справился
по крайней мере этот текст отсекает авантюры типа «да нахера нам эти гигабайты, возьмем интел ай3, на встройке будет норм» и заставляет задумаццо о гораздо более адекватных бюджетах

olelookoe ★★★
()
Ответ на: комментарий от Obezyan

А если несколько видеокарт подключить, чтобы суммарно было не меньше 24Gb VRAM? Так прокатит? Две 3060 стоят намного дешевле чем одна 4090.

vbcnthfkmnth123 ★★★★★
()
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 1)
Ответ на: комментарий от vbcnthfkmnth123

Так прокатит?

Да, разумеется. ollama из коробки с этим работает.

А вот для llama.cpp есть кроме того даже экспериментальная возможность RPC распределить задачи по нескольким машинам.

А вот тут есть подробно описанная саццес-стори применения RPC

XOXO
()
Ответ на: комментарий от olelookoe

железосрач поддержать желания нет, все претензии к автору

Я ни в коем случае не имел претензий к вам, просто указал что не стоит руководствоваться этим «справочником».

в целом +- километр он со своей задачей справился

ну, если мерять в километрах, то соглашусь.

Obezyan
()
Последнее исправление: Obezyan (всего исправлений: 1)
Ответ на: комментарий от XOXO

Здесь большой интерес представляют новые Apple Silicon M3\M4 и их возможности по shared-VRAM

Вообще не копал в эту сторону, было бы интересно послушать тех кто сталкивался.

Obezyan
()
Последнее исправление: Obezyan (всего исправлений: 1)
Ответ на: комментарий от anonymous

Наверняка, ты один из тех радикалов, кто во времена «рекламной сети яндекса с гуглом» рекламу не покупает, а считает, что хороший продукт в рекламе не нуждается?

skidphysic
() автор топика
Ответ на: комментарий от anonymous

«Если бы у меня было 4 доллара, 3 я потратил бы на рекламу.» (с) Генри Форд. Но, можно впасть в радикализм и бороться с ветряными мельницами до пенсии.

skidphysic
() автор топика
Последнее исправление: skidphysic (всего исправлений: 1)
Ответ на: комментарий от skidphysic

Но, можно впасть в радикализм и бороться с ветряными мельницами до пенсии.

Лучше

СПОНСОР ЭТОГО КОММЕНТАРИЯ АССЕНИЗАТОРСКИЕ УСЛУГИ! БЫСТРО! КАЧЕСТВЕННО! НЕДОРОГО!

впасть

СПОНСОР ЭТОГО КОММЕНТАРИЯ НАТЯЖНЫЙ ПОТОЛКИ ОТ ДЯДИ ТОЛИЙ! НАТЯНЕМ ПО САМЫЙ ПОТОЛОК!

в

СПОНСОР ЭТОГО КОММЕНТАРИЯ ОЧЕРЕДНАЯ КАКАЯ-НИБУДЬ ХЕРНЯ! НУ КУПИ ПЖЛ!

радикализм, чем просто наблюдать и спонсировать капрофилию на лицо.

anonymous
()
Ответ на: комментарий от Obezyan

ИИ для генерации картинок (Stable Diffusion) умеют же уже частично держать в обычной, частично в видео, и работать с небольшими кусками видеопамяти, и на 8 - 12 Гб уже вполне с приличной скоростью получается. Текстовые так не умеют?

anonymous
()
Ответ на: комментарий от Obezyan

Вообще не копал в эту сторону, было бы интересно послушать тех кто сталкивался.

Сегодня погонял MacBook M3 Pro c 18Gb ollama-benchmark, для тех размерностей сеток, что он сам подгружает на основе размера RAM:


----------Apple Mac---------
{
    "system": "Darwin",
    "memory": 18.0,
    "cpu": "Apple M3 Pro",
    "gpu": "Apple M3 Pro",
    "os_version": "macOS 15.0.1 (24A348)",
    "system_name": "macOS",
    "model": "Mac15,7",
}


{
    "mistral:7b": "28.51",
    "llama3.1:8b": "24.81",
    "phi3:3.8b": "43.66",
    "qwen2:7b": "28.03",
    "gemma2:9b": "21.04",
    "llava:7b": "29.19",
    "llava:13b": "16.57",
    "ollama_version": "0.4.7"
}

Хочу отметить что это очень неплохой результат для ноута, на машиных с 32Gb и 64Gb и M3 Max будет еще кратно лучше, так что перспективы есть.

XOXO
()
Ответ на: комментарий от XOXO

Попробовал так же codestarl 22B размера c квантизацией, включив --verbose,

промт: «Write simple and fast function for clalculate factorial in Go»:

Q4, размер модели 12 GB:

total duration:       25.292387042s
load duration:        13.215375ms
prompt eval count:    18 token(s)
prompt eval duration: 1.496s
prompt eval rate:     12.03 tokens/s
eval count:           228 token(s)
eval duration:        23.78s
eval rate:            9.59 tokens/s

Что тоже вполне неплохо, жить можно.

XOXO
()
Ответ на: комментарий от XOXO

Сейчас 2025 год, если у тебя нет хотя бы RTX3060

Да ты чо, RTX 3060 Ti не хватит с его 8ю гигами, нужна видюха за $2000 где будет 24 Гб. Почему? Да, потому что всю модель ясное дело будет грузиться в VRAM. Тоже самое с другими нейронками: Stable Diffusion и т.д.

Skullnet ★★★★★
()
Последнее исправление: Skullnet (всего исправлений: 1)