Слушайте, а на видеокарте для майнинга можно ИИ гонять? Хочу недорогой комп себе собрать для нейросеток. Чтоб картинки генерить.

Ответ на: комментарий от hateyoufeel 02.12.24 16:26:39 MSK

Некоторые из этих майнинговых карт не умеют CUDA, например

И как такие карты без CUDA майнят? Ты со специализированными ASICами не путаешь?

i-rinat ★★★★★
(02.12.24 23:16:11 MSK)

Ответ на: комментарий от One 02.12.24 23:08:15 MSK

Как-то не то ты говоришь, CPU как раз параллелится как с частичной, так и с полной загрузкой ядер, так что мгновенно сжирает и 8/16 потоков и 64гб памяти у меня на минике.

Параллелится Dataloader и некоторые другие вычисления. Что тоже важно. Перемножение матриц в PyTorch на CPU не параллелится. Практически или device='cuda' или в однопоток. https://pytorch.org/docs/stable/distributed.html#which-backend-to-use - как бы можно мультиCPU, но это надо отдельно заморочиться. То есть, вот есть у объектов PyTorch (тензоров) параметр device, который на практике обычно принимает значение или 'cpu' или 'cuda' (возможно с номером видеокарты). Если cpu - работает однопоток и никакого параметра типа jobs, указывающего сколько потоков использовать (применяется в других библиотеках) нет. Хочется многопоток - так просто оно не работает.

praseodim ★★★★★
(02.12.24 23:18:07 MSK)
Последнее исправление: praseodim 02.12.24 23:23:28 MSK (всего исправлений: 2)

Ответ на: комментарий от One 02.12.24 22:46:34 MSK

Ерунда про соотношение, особенно на древних GPU, получишь на llama3.1 8b каких-нибудь 5-7tok/sec на 1070, аналогично и на этом CPU

Не ерунда, разница в скорости вполне ощутимая. На 1070 может не сотни, но раз в 10 будет. Но вообще это еще и это от задачи (программы) зависит, не все сильно нагружают GPU.

praseodim ★★★★★
(02.12.24 23:26:13 MSK)

Ссылка

Ответ на: комментарий от praseodim 02.12.24 23:18:07 MSK

Я может идиот, но что не так с матрицами?

https://imgur.com/a/cYL7q1B 8 потоков, как указано на CPU

One ★★★★★
(02.12.24 23:28:09 MSK)

Ответ на: комментарий от One 02.12.24 23:28:09 MSK

Хм, может это я идиот :) Попозже посмотрю как оно работает.

praseodim ★★★★★
(03.12.24 02:26:49 MSK)

Ссылка

Ответ на: комментарий от i-rinat 02.12.24 23:16:11 MSK

Ты со специализированными ASICами не путаешь?

Не, не путаю. Невидия её реально выключила в некоторых. В каком-то из обзоров Линуса было (который худой-.

hateyoufeel ★★★★★
(03.12.24 02:46:20 MSK)

Ответ на: комментарий от One 02.12.24 22:46:34 MSK

А запустишь ты видеокарту без связки мать-проц-память?

А связка мать-проц-память 8Гб у меня уже есть, из старого компа

tiinn ★★★★★
(03.12.24 05:56:41 MSK) автор топика

Ссылка

Условно, полкилловата на видеокарте дадут такой же выхлоп, как 50 ватт NPU.

Но можно, конечно.

alexmaru ★
(03.12.24 15:19:10 MSK)

Ответ на: комментарий от alexmaru 03.12.24 15:19:10 MSK

нет, не дадут.

полкиловатта на видеокарте - это уровень 4090. ни один npu даже близко не подойдет по перформансу к 4090.

плюс, под npu по факту нет ни драйверов ни обвязки толковой

loki_ ★★
(03.12.24 16:39:47 MSK)

Ссылка

Ответ на: комментарий от alexmaru 03.12.24 15:19:10 MSK

Условно, 0 ватт на видеокарте дадут такой же выхлоп, как 50 ватт NPU на x86.

Так как на GPU (вулкан, куда, рокм) прекрасно модели работают, а NPU лишь теоретическая тема с минимум костыльных моделей для для Windows 11 (по крайней мере о amd)

One ★★★★★
(03.12.24 17:11:37 MSK)

Ответ на: комментарий от One 03.12.24 17:11:37 MSK

а, ну так я на маке это кручу, оно тут уже очень давно, люди конвертят в core ml модели, можешь на huggin поискать.

Просто на видеокарте это печка, охлаждение на пределе, всё загружено, а NPU это тишина, покой, и чуть быстрее.

Чисто из соображения комфорта и того, что с NPU можно это крутить на батарейке.

Но когда-то же в линуксе будет?

alexmaru ★
(03.12.24 17:34:33 MSK)
Последнее исправление: alexmaru 03.12.24 17:35:05 MSK (всего исправлений: 1)

Ответ на: комментарий от alexmaru 03.12.24 17:34:33 MSK

а, ну так я на маке это кручу, оно тут уже очень давно, люди конвертят в core ml модели, можешь на huggin поискать.

И какая скорость на NPU?

Недавно попадался большой тредик на маке, не внушает, раз 7840u results in almost the same tg, but pp is better.

https://github.com/ggerganov/llama.cpp/discussions/4167#discussioncomment-8387129

One ★★★★★
(03.12.24 17:45:20 MSK)

Ответ на: комментарий от One 03.12.24 17:45:20 MSK

Вся суть именно в том, что ты либо ложишь всю систему под нагрузкой и оно разряжается за час работы, либо оно с той же скоростью (на m1 max) работает незаметно.

т.е. разница как между бенчмарком и чем-то, чем ты можешь пользоваться и делать что-то ещё.

NPU там значительно поменялся в m3 и m4, оттуда у меня цифр нет.

alexmaru ★
(03.12.24 18:56:44 MSK)

Ссылка

Чел, там главное чтоб видеопамяти хватало. Но тут такое дело - на любую более-менее современную видяшку можно вкорячить квантованную модельку для генерации картинок (не обучения), иногда даже можно ещё слой обучить чтоб подтюнить модельку под твои хотелки. Но вот беда - чем меньше памяти, тем хуже результат. Скажем на 6 гигах видеопамяти результаты так себе. На 24 терпимо. Чтоб хорошо было надо больше.

peregrine ★★★★★
(03.12.24 19:20:51 MSK)

Ответ на: комментарий от guyvernk 02.12.24 09:57:28 MSK

Да там не в скорости затык. Грубо говоря будет он картинку 5 минут герерить или 15 особо роли нет. А вот если памяти мало, то качество страдает

peregrine ★★★★★
(03.12.24 19:22:52 MSK)

Ссылка

Ответ на: комментарий от tiinn 02.12.24 11:34:38 MSK

А что уже 16 гигов видяшки всего 64 стоит? Я что-то проспал?

peregrine ★★★★★
(03.12.24 19:23:52 MSK)

Ответ на: комментарий от peregrine 03.12.24 19:23:52 MSK

Да, даже дешевле

tiinn ★★★★★
(03.12.24 19:48:11 MSK) автор топика

Ответ на: комментарий от tiinn 03.12.24 19:48:11 MSK

Блин, похоже и правда проспал.

peregrine ★★★★★
(03.12.24 21:30:36 MSK)

Ссылка

Ответ на: комментарий от peregrine 03.12.24 19:23:52 MSK

А что уже 16 гигов видяшки всего 64 стоит? Я что-то проспал?

radeon vii с hbm2 памятью сейчас за 17к можно взять на авито. Ещё есть (был) rtx 3090 за 55к с 24GB (сейчас под 70к). Так что, я уже насчитал 3 человек желающих. Ещё 97 и можно ЛОР-ый GPU кластер для LLM поднять за недорого. С меня блоки питания и райзеры на pcie x1 с мат платой на 12 слотов вроде. Плюс физическое место установки.

foror ★★★★★
(04.12.24 03:41:27 MSK)
Последнее исправление: foror 04.12.24 03:42:13 MSK (всего исправлений: 1)

там памяти с гулькин хрен. Если год назад не затарил теслы М40/P40 то в пролете. Входной билет для LLM - 100 гиг VRAM где-то.

ncrmnt ★★★★★
(04.12.24 23:50:26 MSK)

Ссылка

Ответ на: комментарий от foror 04.12.24 03:41:27 MSK

х1 нафиг, в отличие от майнинга в multi-gpu сетапах на LLM больше трафика по шине и более критичен лейтенси. Я брал 16x->x4x4x4x4 райзер, и туда P40 втыкал.

Особенно будет заметно, если ллама 405b подымать, что полностью во VRAM не влезет и будет динамически слои туда-сюда гонять.

ncrmnt ★★★★★
(04.12.24 23:54:29 MSK)

Ответ на: комментарий от hateyoufeel 03.12.24 02:46:20 MSK

Не, не путаю. Невидия её реально выключила в некоторых.

Майнеры это CUDA-программы. Если на (NVIDIA) карте невозможно использовать CUDA, майнить на ней не выйдет.

i-rinat ★★★★★
(05.12.24 00:32:23 MSK)

Ссылка

Я не разбираюсь, но теоретически годятся те видокарты где много VRAM и которые выполняют 2х операций над bf16/fp16 (в сравнении с классическими fp32 используемых в тригонометрических преобразованиях). Т.е. числа с пониженной точностью, у которых в два раза меньше разрядов можно молотить в два раза быстрее. В случае 3d 16-ти разрядные числа бы давали много артефактов (постоянный Z-fighting и прочее), но такие вычисления годятся для нейронок. Упомянутая здесь nvidia 1070 по этой причине не годится (как и вся 1000-я серия), она конечно будет выполнять математику но в два раза медленнее чем могла бы будь в ней поддержка fp16.

Aber ★★★★★
(05.12.24 01:22:07 MSK)

Ссылка

Ответ на: комментарий от ncrmnt 04.12.24 23:54:29 MSK

что полностью во VRAM не влезет и будет динамически слои туда-сюда гонять

Я про случай когда влезет. 70b влезет на 8-10 gpu с 16 ГБ.

в multi-gpu сетапах на LLM больше трафика по шине

Кому из вас верить https://habr.com/ru/companies/serverflow/articles/860082/comments/#comment_27595320 ?

Может чего перепутал инференс с переобучением? Я также на реддите, читал, что слои на gpu можно разложить, чтобы трафика было по минимуму.

foror ★★★★★
(05.12.24 14:51:04 MSK)

Ответ на: комментарий от tiinn 02.12.24 10:14:59 MSK

Оно в своп уходит

Имхо, если свопится, то о производительности говорить уже бессмысленно, и ускорители значения не имеют. Для начала нужно оперативную память увеличить.

question4 ★★★★★
(05.12.24 17:23:02 MSK)

Ссылка

Ответ на: комментарий от sparkie 02.12.24 08:49:30 MSK

То, что мы называем ИИ, работает на чём угодно. Хоть на встройке.

Вопрос насколько медленно :)

question4 ★★★★★
(05.12.24 17:23:09 MSK)

Ответ на: комментарий от question4 05.12.24 17:23:09 MSK

Я тут частично от нечего делать занялся этой вашей наукой и в числе прочего «поигрался» с ИИ (хотя это и не моя тема). На моём далеко не топовом ноуте сабж бегает довольно шустро.

sparkie ★★★★★
(05.12.24 18:18:06 MSK)

Ответ на: комментарий от tiinn 02.12.24 08:49:59 MSK

Можно.

sparkie ★★★★★
(05.12.24 18:19:25 MSK)

Ссылка

Ответ на: комментарий от sparkie 05.12.24 18:18:06 MSK

На моём далеко не топовом ноуте сабж бегает довольно шустро.

Обучение, или уже готовая нейросеть?

Хотя на моём 10-летнем десктопе и обученная нейросеть для TTS работала адски медленно.

question4 ★★★★★
(05.12.24 18:22:06 MSK)

Ответ на: комментарий от question4 05.12.24 18:22:06 MSK

Я хрен его знает, как это дело назвать, в общем я скармливал ей тексты, а на выхлопе получал портреты людей.

sparkie ★★★★★
(05.12.24 18:41:59 MSK)

Ответ на: комментарий от sparkie 05.12.24 18:41:59 MSK

Если не скармливал картинки, значит готовая.

question4 ★★★★★
(05.12.24 18:50:23 MSK)

Ответ на: комментарий от question4 05.12.24 18:50:23 MSK

Причём, сабж выдавал отличающиеся результаты на те же самые вводные.

sparkie ★★★★★
(05.12.24 19:18:50 MSK)
Последнее исправление: sparkie 05.12.24 19:19:20 MSK (всего исправлений: 1)

Ответ на: комментарий от sparkie 05.12.24 19:18:50 MSK

Это фиксили в какой-то версии (т.е. найти нейросетку недетерминированную - возможно).

tiinn ★★★★★
(05.12.24 19:22:36 MSK) автор топика

Ссылка

Ответ на: комментарий от foror 05.12.24 14:51:04 MSK

Там есть нюанс, что по x4 линку в отличие от x1 еще ниже latency (я по крайней мере на эту грешу).

Я сильно это не профилировал, но в сетапе когда 2 P40 были подключены по x16 линку, а одна по x1 через райзер, одну проще было выкинуть и положить остатки на CPU. В итоге из-за этого я и добывал с матами себе пару 16->4x4 райзеров с тао и варганил орочью нейроферму.

Особенно тогда не вдавался в детали, решил что сразу перестрахуюсь и на x4 посажу.

ncrmnt ★★★★★
(06.12.24 00:05:06 MSK)
Последнее исправление: ncrmnt 06.12.24 00:05:55 MSK (всего исправлений: 1)

Ответ на: комментарий от peregrine 03.12.24 19:20:51 MSK

чем меньше памяти, тем хуже результат. Скажем на 6 гигах видеопамяти результаты так себе. На 24 терпимо. Чтоб хорошо было надо больше

Раньше некоторые видеокарты могли увеличивать видеопамять за счет озу. Сейчас это утраченная технология предков?

gffff
(06.12.24 04:18:04 MSK)

Ответ на: комментарий от ncrmnt 06.12.24 00:05:06 MSK

пару 16->4x4 райзеров с тао

Можно подробнее?

foror ★★★★★
(06.12.24 05:37:14 MSK)

Ссылка

Ответ на: комментарий от ncrmnt 06.12.24 00:05:06 MSK

Не смотрел по старым тредриперам или эпикам материнки? Там же куча pcie слотов с широкими линиями? Или дорого выходило?

foror ★★★★★
(06.12.24 05:41:15 MSK)

Ответ на: комментарий от ncrmnt 06.12.24 00:05:06 MSK

Нашёл вот такую штуку https://www.ioi.com.tw/products/proddetail.aspx?AppID=1008&CatID=102&HostID=2076&ProdID=1020249 Но цена в 350 USD негуманна, проще sp3 материнку взять на ебее.

foror ★★★★★
(06.12.24 08:43:01 MSK)
Последнее исправление: foror 06.12.24 08:53:38 MSK (всего исправлений: 1)

Ответ на: комментарий от gffff 06.12.24 04:18:04 MSK

Да. Это только интеграшки встроенные в процессор умеют.

peregrine ★★★★★
(06.12.24 13:31:11 MSK)

Ответ на: комментарий от peregrine 06.12.24 13:31:11 MSK

«Позвольте, — взовьётся внимательный читатель, решивший буква в букву следовать нашему руководству, — какой смысл, имея 8-Гбайт видеокарту, выкачивать даже урезанную модель, если она всё равно занимает 17,2 Гбайт?» — а именно таков размер предлагаемого Comfy.Org файла flux1-dev-fp8.safetensors. Дело, однако, в том, что в ComfyUI (как, кстати, с некоторых пор и в Forge) реализована возможность «склейки» оперативной памяти компьютера с видеопамятью — бесшовно для исполняемых в этих рабочих средах программ, но, конечно же, с обеспечением куда менее высокой производительности, чем если бы модель целиком умещалась в видеоОЗУ. Тем не менее на нашей тестовой системе в настоящее время установлено 24 Гбайт оперативной памяти, так что суммарный с видеопамятью доступный объём составляет 32 Гбайт, — этого, строго говоря, хватит и для неусечённой по точности FP16-версии FLUX (в чём мы чуть позже ещё убедимся).

tiinn ★★★★★
(06.12.24 13:41:19 MSK) автор топика

Ответ на: комментарий от foror 06.12.24 05:41:15 MSK

У меня хуананзион двухсокетный ;)

ncrmnt ★★★★★
(06.12.24 14:51:03 MSK)

Ссылка

Ответ на: комментарий от foror 06.12.24 08:43:01 MSK

https://item.taobao.com/item.htm?abbucket=16&id=710440706220&ns=1&spm=a21n57.1.0.0.629d523cR4PeEQ&skuId=4978427804818 - райзер (если поискать, есть сейчас за 200-250 юаней)

https://item.taobao.com/item.htm?abbucket=16&id=727574801819&ns=1&skuId=5326049599335&spm=a21n57.1.0.0.76fa523cXCmaDS - кабель (аналогично, ищи варианты)

Больше 30 см брать кабель не рекомендую - AER ошибками сыпет. 0.8м и через райзер тренируется только на gen1.

ncrmnt ★★★★★
(06.12.24 14:57:43 MSK)

Ссылка

Мне кажется за 9к аналог 2070 майнинг лучше будет.

NonameKiriLL ★
(07.12.24 10:43:14 MSK)

Ссылка

Ответ на: комментарий от tiinn 06.12.24 13:41:19 MSK

реализована возможность «склейки» оперативной памяти компьютера с видеопамятью

Там не все так просто. Насколько я помню GGUF формат модели такое поддерживает. А обычные модели для генерации картинок они все в .safetensors. То есть возможность теоретическая есть, но по факту оно так работать у тебя не будет.

хватит и для неусечённой по точности FP16-версии FLUX

FLUX распространяется в GGUF, остальные модели я в таком формате не видел.

vbcnthfkmnth123 ★★★★★
(07.12.24 11:00:16 MSK)
Последнее исправление: vbcnthfkmnth123 07.12.24 11:03:02 MSK (всего исправлений: 2)

Ответ на: комментарий от vbcnthfkmnth123 07.12.24 11:00:16 MSK

Благодарю.

tiinn ★★★★★
(07.12.24 14:19:20 MSK) автор топика

Ссылка

Ответ на: комментарий от tiinn 06.12.24 13:41:19 MSK

Самая хорошая модель это pony. Она тока тока влезает в 8 гигов.

user1087
(09.12.24 06:12:22 MSK)

Ссылка

Ответ на: комментарий от vbcnthfkmnth123 07.12.24 11:00:16 MSK

А вот тут пишут,

Вышедшее летом 23 года обновление драйверов Nvidia версии 536.40 включило использование Общей памяти графического процессора (то есть оперативной памяти, которая играет роль «памяти подкачки» для памяти GPU) для вычислений на GPU. Это позволяет избегать ошибки нехватки памяти, однако, когда заканчивается память GPU и начинает использоваться оперативная, скорость генерации падает до 50 раз (чем больше памяти, тем медленнее) из-за необходимости многократной пересылки данных между оперативной памятью и памятью GPU.

Я так понял, это вообще от вида модели не зависит

tiinn ★★★★★
(13.12.24 09:26:09 MSK) автор топика

Ответ на: комментарий от tiinn 13.12.24 09:26:09 MSK

Это на линуксе не работает, насколько я помню. Попробуй затестить и посмотри. У меня драйвера слишком старые.

vbcnthfkmnth123 ★★★★★
(13.12.24 09:31:29 MSK)
Последнее исправление: vbcnthfkmnth123 13.12.24 09:32:43 MSK (всего исправлений: 2)

Ссылка

Похожие темы