LINUX.ORG.RU
ФорумTalks

Слушайте, а на видеокарте для майнинга можно ИИ гонять? Хочу недорогой комп себе собрать для нейросеток. Чтоб картинки генерить.

 , ,


1

2

Сабж. А в теме я полный нуб.

Продают видеокарты без видеовыходов, втрое дешевле.

★★★★★
Ответ на: комментарий от hateyoufeel

Некоторые из этих майнинговых карт не умеют CUDA, например

И как такие карты без CUDA майнят? Ты со специализированными ASICами не путаешь?

i-rinat ★★★★★
()
Ответ на: комментарий от One

Как-то не то ты говоришь, CPU как раз параллелится как с частичной, так и с полной загрузкой ядер, так что мгновенно сжирает и 8/16 потоков и 64гб памяти у меня на минике.

Параллелится Dataloader и некоторые другие вычисления. Что тоже важно. Перемножение матриц в PyTorch на CPU не параллелится. Практически или device='cuda' или в однопоток. https://pytorch.org/docs/stable/distributed.html#which-backend-to-use - как бы можно мультиCPU, но это надо отдельно заморочиться. То есть, вот есть у объектов PyTorch (тензоров) параметр device, который на практике обычно принимает значение или 'cpu' или 'cuda' (возможно с номером видеокарты). Если cpu - работает однопоток и никакого параметра типа jobs, указывающего сколько потоков использовать (применяется в других библиотеках) нет. Хочется многопоток - так просто оно не работает.

praseodim ★★★★★
()
Последнее исправление: praseodim (всего исправлений: 2)
Ответ на: комментарий от One

Ерунда про соотношение, особенно на древних GPU, получишь на llama3.1 8b каких-нибудь 5-7tok/sec на 1070, аналогично и на этом CPU

Не ерунда, разница в скорости вполне ощутимая. На 1070 может не сотни, но раз в 10 будет. Но вообще это еще и это от задачи (программы) зависит, не все сильно нагружают GPU.

praseodim ★★★★★
()
Ответ на: комментарий от One

Хм, может это я идиот :) Попозже посмотрю как оно работает.

praseodim ★★★★★
()
Ответ на: комментарий от i-rinat

Ты со специализированными ASICами не путаешь?

Не, не путаю. Невидия её реально выключила в некоторых. В каком-то из обзоров Линуса было (который худой-.

hateyoufeel ★★★★★
()
Ответ на: комментарий от One

А запустишь ты видеокарту без связки мать-проц-память?

А связка мать-проц-память 8Гб у меня уже есть, из старого компа

tiinn ★★★★★
() автор топика

Условно, полкилловата на видеокарте дадут такой же выхлоп, как 50 ватт NPU.

Но можно, конечно.

alexmaru
()
Ответ на: комментарий от alexmaru

нет, не дадут.

полкиловатта на видеокарте - это уровень 4090. ни один npu даже близко не подойдет по перформансу к 4090.

плюс, под npu по факту нет ни драйверов ни обвязки толковой

loki_ ★★
()
Ответ на: комментарий от alexmaru

Условно, 0 ватт на видеокарте дадут такой же выхлоп, как 50 ватт NPU на x86.

Так как на GPU (вулкан, куда, рокм) прекрасно модели работают, а NPU лишь теоретическая тема с минимум костыльных моделей для для Windows 11 (по крайней мере о amd)

One ★★★★★
()
Ответ на: комментарий от One

а, ну так я на маке это кручу, оно тут уже очень давно, люди конвертят в core ml модели, можешь на huggin поискать.

Просто на видеокарте это печка, охлаждение на пределе, всё загружено, а NPU это тишина, покой, и чуть быстрее.

Чисто из соображения комфорта и того, что с NPU можно это крутить на батарейке.

Но когда-то же в линуксе будет?

alexmaru
()
Последнее исправление: alexmaru (всего исправлений: 1)
Ответ на: комментарий от alexmaru

а, ну так я на маке это кручу, оно тут уже очень давно, люди конвертят в core ml модели, можешь на huggin поискать.

И какая скорость на NPU?

Недавно попадался большой тредик на маке, не внушает, раз 7840u results in almost the same tg, but pp is better.

https://github.com/ggerganov/llama.cpp/discussions/4167#discussioncomment-8387129

One ★★★★★
()
Ответ на: комментарий от One

Вся суть именно в том, что ты либо ложишь всю систему под нагрузкой и оно разряжается за час работы, либо оно с той же скоростью (на m1 max) работает незаметно.

т.е. разница как между бенчмарком и чем-то, чем ты можешь пользоваться и делать что-то ещё.

NPU там значительно поменялся в m3 и m4, оттуда у меня цифр нет.

alexmaru
()

Чел, там главное чтоб видеопамяти хватало. Но тут такое дело - на любую более-менее современную видяшку можно вкорячить квантованную модельку для генерации картинок (не обучения), иногда даже можно ещё слой обучить чтоб подтюнить модельку под твои хотелки. Но вот беда - чем меньше памяти, тем хуже результат. Скажем на 6 гигах видеопамяти результаты так себе. На 24 терпимо. Чтоб хорошо было надо больше.

peregrine ★★★★★
()
Ответ на: комментарий от guyvernk

Да там не в скорости затык. Грубо говоря будет он картинку 5 минут герерить или 15 особо роли нет. А вот если памяти мало, то качество страдает

peregrine ★★★★★
()
Ответ на: комментарий от peregrine

А что уже 16 гигов видяшки всего 64 стоит? Я что-то проспал?

radeon vii с hbm2 памятью сейчас за 17к можно взять на авито. Ещё есть (был) rtx 3090 за 55к с 24GB (сейчас под 70к). Так что, я уже насчитал 3 человек желающих. Ещё 97 и можно ЛОР-ый GPU кластер для LLM поднять за недорого. С меня блоки питания и райзеры на pcie x1 с мат платой на 12 слотов вроде. Плюс физическое место установки.

foror ★★★★★
()
Последнее исправление: foror (всего исправлений: 1)

там памяти с гулькин хрен. Если год назад не затарил теслы М40/P40 то в пролете. Входной билет для LLM - 100 гиг VRAM где-то.

ncrmnt ★★★★★
()
Ответ на: комментарий от foror

х1 нафиг, в отличие от майнинга в multi-gpu сетапах на LLM больше трафика по шине и более критичен лейтенси. Я брал 16x->x4x4x4x4 райзер, и туда P40 втыкал.

Особенно будет заметно, если ллама 405b подымать, что полностью во VRAM не влезет и будет динамически слои туда-сюда гонять.

ncrmnt ★★★★★
()
Ответ на: комментарий от hateyoufeel

Не, не путаю. Невидия её реально выключила в некоторых.

Майнеры это CUDA-программы. Если на (NVIDIA) карте невозможно использовать CUDA, майнить на ней не выйдет.

i-rinat ★★★★★
()

Я не разбираюсь, но теоретически годятся те видокарты где много VRAM и которые выполняют 2х операций над bf16/fp16 (в сравнении с классическими fp32 используемых в тригонометрических преобразованиях). Т.е. числа с пониженной точностью, у которых в два раза меньше разрядов можно молотить в два раза быстрее. В случае 3d 16-ти разрядные числа бы давали много артефактов (постоянный Z-fighting и прочее), но такие вычисления годятся для нейронок. Упомянутая здесь nvidia 1070 по этой причине не годится (как и вся 1000-я серия), она конечно будет выполнять математику но в два раза медленнее чем могла бы будь в ней поддержка fp16.

Aber ★★★★★
()
Ответ на: комментарий от ncrmnt

что полностью во VRAM не влезет и будет динамически слои туда-сюда гонять

Я про случай когда влезет. 70b влезет на 8-10 gpu с 16 ГБ.

в multi-gpu сетапах на LLM больше трафика по шине

Кому из вас верить https://habr.com/ru/companies/serverflow/articles/860082/comments/#comment_27595320 ?

Может чего перепутал инференс с переобучением? Я также на реддите, читал, что слои на gpu можно разложить, чтобы трафика было по минимуму.

foror ★★★★★
()
Ответ на: комментарий от tiinn

Оно в своп уходит

Имхо, если свопится, то о производительности говорить уже бессмысленно, и ускорители значения не имеют. Для начала нужно оперативную память увеличить.

question4 ★★★★★
()
Ответ на: комментарий от question4

Я тут частично от нечего делать занялся этой вашей наукой и в числе прочего «поигрался» с ИИ (хотя это и не моя тема). На моём далеко не топовом ноуте сабж бегает довольно шустро.

sparkie ★★★★★
()
Ответ на: комментарий от sparkie

На моём далеко не топовом ноуте сабж бегает довольно шустро.

Обучение, или уже готовая нейросеть?

Хотя на моём 10-летнем десктопе и обученная нейросеть для TTS работала адски медленно.

question4 ★★★★★
()
Ответ на: комментарий от question4

Я хрен его знает, как это дело назвать, в общем я скармливал ей тексты, а на выхлопе получал портреты людей.

sparkie ★★★★★
()
Ответ на: комментарий от sparkie

Это фиксили в какой-то версии (т.е. найти нейросетку недетерминированную - возможно).

tiinn ★★★★★
() автор топика
Ответ на: комментарий от foror

Там есть нюанс, что по x4 линку в отличие от x1 еще ниже latency (я по крайней мере на эту грешу).

Я сильно это не профилировал, но в сетапе когда 2 P40 были подключены по x16 линку, а одна по x1 через райзер, одну проще было выкинуть и положить остатки на CPU. В итоге из-за этого я и добывал с матами себе пару 16->4x4 райзеров с тао и варганил орочью нейроферму.

Особенно тогда не вдавался в детали, решил что сразу перестрахуюсь и на x4 посажу.

ncrmnt ★★★★★
()
Последнее исправление: ncrmnt (всего исправлений: 1)
Ответ на: комментарий от peregrine

чем меньше памяти, тем хуже результат. Скажем на 6 гигах видеопамяти результаты так себе. На 24 терпимо. Чтоб хорошо было надо больше

Раньше некоторые видеокарты могли увеличивать видеопамять за счет озу. Сейчас это утраченная технология предков?

gffff
()
Ответ на: комментарий от ncrmnt

пару 16->4x4 райзеров с тао

Можно подробнее?

foror ★★★★★
()
Ответ на: комментарий от ncrmnt

Не смотрел по старым тредриперам или эпикам материнки? Там же куча pcie слотов с широкими линиями? Или дорого выходило?

foror ★★★★★
()
Ответ на: комментарий от ncrmnt

Нашёл вот такую штуку https://www.ioi.com.tw/products/proddetail.aspx?AppID=1008&CatID=102&HostID=2076&ProdID=1020249 Но цена в 350 USD негуманна, проще sp3 материнку взять на ебее.

foror ★★★★★
()
Последнее исправление: foror (всего исправлений: 1)
Ответ на: комментарий от peregrine

«Позвольте, — взовьётся внимательный читатель, решивший буква в букву следовать нашему руководству, — какой смысл, имея 8-Гбайт видеокарту, выкачивать даже урезанную модель, если она всё равно занимает 17,2 Гбайт?» — а именно таков размер предлагаемого Comfy.Org файла flux1-dev-fp8.safetensors. Дело, однако, в том, что в ComfyUI (как, кстати, с некоторых пор и в Forge) реализована возможность «склейки» оперативной памяти компьютера с видеопамятью — бесшовно для исполняемых в этих рабочих средах программ, но, конечно же, с обеспечением куда менее высокой производительности, чем если бы модель целиком умещалась в видеоОЗУ. Тем не менее на нашей тестовой системе в настоящее время установлено 24 Гбайт оперативной памяти, так что суммарный с видеопамятью доступный объём составляет 32 Гбайт, — этого, строго говоря, хватит и для неусечённой по точности FP16-версии FLUX (в чём мы чуть позже ещё убедимся).

tiinn ★★★★★
() автор топика
Ответ на: комментарий от foror

https://item.taobao.com/item.htm?abbucket=16&id=710440706220&ns=1&spm=a21n57.1.0.0.629d523cR4PeEQ&skuId=4978427804818 - райзер (если поискать, есть сейчас за 200-250 юаней)

https://item.taobao.com/item.htm?abbucket=16&id=727574801819&ns=1&skuId=5326049599335&spm=a21n57.1.0.0.76fa523cXCmaDS - кабель (аналогично, ищи варианты)

Больше 30 см брать кабель не рекомендую - AER ошибками сыпет. 0.8м и через райзер тренируется только на gen1.

ncrmnt ★★★★★
()

Мне кажется за 9к аналог 2070 майнинг лучше будет.

NonameKiriLL
()
Ответ на: комментарий от tiinn

реализована возможность «склейки» оперативной памяти компьютера с видеопамятью

Там не все так просто. Насколько я помню GGUF формат модели такое поддерживает. А обычные модели для генерации картинок они все в .safetensors. То есть возможность теоретическая есть, но по факту оно так работать у тебя не будет.

хватит и для неусечённой по точности FP16-версии FLUX

FLUX распространяется в GGUF, остальные модели я в таком формате не видел.

vbcnthfkmnth123 ★★★★★
()
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 2)
Ответ на: комментарий от tiinn

Самая хорошая модель это pony. Она тока тока влезает в 8 гигов.

user1087
()
Ответ на: комментарий от vbcnthfkmnth123

А вот тут пишут,

Вышедшее летом 23 года обновление драйверов Nvidia версии 536.40 включило использование Общей памяти графического процессора (то есть оперативной памяти, которая играет роль «памяти подкачки» для памяти GPU) для вычислений на GPU. Это позволяет избегать ошибки нехватки памяти, однако, когда заканчивается память GPU и начинает использоваться оперативная, скорость генерации падает до 50 раз (чем больше памяти, тем медленнее) из-за необходимости многократной пересылки данных между оперативной памятью и памятью GPU.

Я так понял, это вообще от вида модели не зависит

tiinn ★★★★★
() автор топика
Ответ на: комментарий от tiinn

Это на линуксе не работает, насколько я помню. Попробуй затестить и посмотри. У меня драйвера слишком старые.

vbcnthfkmnth123 ★★★★★
()
Последнее исправление: vbcnthfkmnth123 (всего исправлений: 2)
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)