Вопрос по локальным нейросетям

1

2

Всем добрый день. Я новичок в теме нейросетей, поэтому прошу сильно не ругать).

Появился ряд вопросов по этой теме: Сейчас стоит 2 задачи:

Хотим сделать транскрибатор с использованием openai Whisper на своем железе и
Есть желание сделать голосовое управление без интернета для home assistant.

Отсюда ряд вопросов:

Какие системные требования для сетей под такие задачи? (в сети пишут разные вещи, но все +- около топа/предтопа)
Возможно ли установить в пк 2 разные видюхи одновременно и заставить нейронку работать на этом винегрете? (например radeon mi50 + gtx1630/intel arc b580)
Пока копал тему железа, вспомнил про специфичную игрушку в виде Intel xeon phi sc7220. Реально ли такое задействовать для работы нейронки? Или будет только жрать и коптить, а практического толку не будет?
Я правильно понимаю, что нейронка будет грузить видюк на полную только в момент обращения к ней/скармливания данных, а не на постоянную?
Нужен ли отдельный ссд под вышеописанные задачи?
Будет ли иметь значение процессор для таких задач? (чтобы знать уже точно, что проц можно какой-нибудь i3 поставить, а приоритет отдать ускорителям)
Где можно почитать описание разных моделей что умеют, в каких задачах применяются и тд? (или может есть мануал для чайников? с малого к большому)
сейчас располагаю свободным железом в виде i3-4130, 7гб озу и майнерского варианта gtx 1050ti 3gb (p106-090). стоит ли пытаться заводить что-то из вышеперечисленного на этом железе ради эксперимента, или захлебнется?

←	Как указать DPI при удаленном запуске графических приложений по ssh -X?

Русский язык в терминале Linux, Ubuntu

→

← 1 2 →

Ну попробуй whisper и какой-нибудь мелкий qwen, скорее который ruadapt. Голос распознавать будет нормально, на home assistant вроде б и мелкого qwen должно хватить.

mike666 ★
(24.02.25 16:24:44 MSK)

Возможно ли установить в пк 2 разные видюхи одновременно

Да

и заставить нейронку работать на этом винегрете?

Нет.

tiinn ★★★★★
(24.02.25 16:25:49 MSK)

сейчас располагаю свободным железом в виде i3-4130, 7гб озу и майнерского варианта gtx 1050ti 3gb (p106-090). стоит ли пытаться заводить что-то из вышеперечисленного на этом железе ради эксперимента, или захлебнется?

Захлебнётся. Купи хотя бы p104-100

tiinn ★★★★★
(24.02.25 16:29:45 MSK)

Основное требование - нейросеть должна помещаться в память целиком, без свопа. В идеале - целиком в память gpu, некоторые нейронки без выполнения этого условия не имеет смысла пытаться запускать. Работа на CPU бывает в десятки раз медленнее работы на GPU.
Скоростной SSD нужен для больших моделей на десятки гигабайт. Для мелких можно обойтись простым ssd/hdd.

Khnazile ★★★★★
(24.02.25 16:33:17 MSK)

Ответ на: комментарий от mike666 24.02.25 16:24:44 MSK

Понял, спасибо, будем почитать. (собираю по крупицам инфу в новой для себя теме)

The_doctor
(24.02.25 16:38:58 MSK) автор топика

Ответ на: комментарий от tiinn 24.02.25 16:29:45 MSK

Хорошо, с видюком понятно, смотрю пока в сторону radeon mi50, 16гб может и хватит на это все добро. А что насчет процессора? Тут можно любой использовать, или все же что-то серьезное все равно втыкать придется? (хотя бы в рамках описанных задач) Будет ли оно еще и камень нагружать, или вся магия будет на ГП происходить и проц будет прохлаждаться?

The_doctor
(24.02.25 16:42:49 MSK) автор топика

Ответ на: комментарий от Khnazile 24.02.25 16:33:17 MSK

Понял, спасибо. А реально отдать приоритет только на гп, чтобы проц не трогала нейронка? (в целях экономии на железе)

The_doctor
(24.02.25 16:44:14 MSK) автор топика

Какие системные требования для сетей под такие задачи?

Зависит от модели. Какие-то помещаются в 4G VRAM, каким-то нужен кластер из 256G(!) VRAM.

Возможно ли установить в пк 2 разные видюхи одновременно и заставить нейронку работать на этом винегрете? (например radeon mi50 + gtx1630/intel arc b580)

Нет. nvidia использует CUDA и для неё нужен Torch в варианте -cu; AMD использует ROCm, и для него нужен Torch в варианте -rocm. Это две совершенно разные сборки Torch, которые не могут сосуществовать. Но можно поставить два разных торча в два разных venv’а.

Я правильно понимаю, что нейронка будет грузить видюк на полную только в момент обращения к ней/скармливания данных, а не на постоянную?

Гонять GPU — да, во время обращения. Занимать VRAM будет с тех пор как обратился к модели и до тех пор пока не выгрузишь модель или не завершишь процесс торча.

Нужен ли отдельный ссд под вышеописанные задачи?

Скорость диска влияет только на старт, потому что модель считывается с диска и загружается в RAM и/или VRAM.

Будет ли иметь значение процессор для таких задач? (чтобы знать уже точно, что проц можно какой-нибудь i3 поставить, а приоритет отдать ускорителям)

Часть задач производится на CPU, но минимальная. А вот RAM нужна чем быстрее тем лучше, выгрузка в RAM из VRAM и обратно может происходить регулярно.

Где можно почитать описание разных моделей что умеют, в каких задачах применяются и тд? (или может есть мануал для чайников? с малого к большому)

Вся движуха происходит в Arxiv, но в этой области тебе никто не будет разжёвывать азы. Ну и развивается оно сейчас с такой скоростью, что пока ты прочитаешь "от начала и до сегодняшнего дня", оно уже убежит сильно вперёд.

сейчас располагаю свободным железом в виде i3-4130, 7гб озу и майнерского варианта gtx 1050ti 3gb (p106-090). стоит ли пытаться заводить что-то из вышеперечисленного на этом железе ради эксперимента, или захлебнется?

Попробуй. Но даже если оно что-то сможет высрать, скорость тебе не понравится. (=

Есть желание сделать голосовое управление без интернета для home assistant.

С этим пока всё довольно печально.

mord0d ★★★★★
(24.02.25 16:45:08 MSK)

Ответ на: комментарий от The_doctor 24.02.25 16:42:49 MSK

А что насчет процессора?

Здесь не подскажу. Ибо я использую нейросети для генерации картинок, и видюху воткнул вообще в самый слабый комп, который только можно придумать - asrock j4005b-itx c 16 Gb RAM. Ну, задачи кодирования текста там выполняются долго, пару минут… Сами картинки генерятся нормально, как у всех.

tiinn ★★★★★
(24.02.25 16:50:05 MSK)

Ответ на: комментарий от Khnazile 24.02.25 16:33:17 MSK

Основное требование - нейросеть должна помещаться в память целиком, без свопа. В идеале - целиком в память gpu

Верно, но с оговорками для конкретных юзкейсов.

некоторые нейронки без выполнения этого условия не имеет смысла пытаться запускать

Можно, если никуда не торопиться, и то что делается за пять минут нужно выполнить хотя бы до следующего дня. (=

Работа на CPU бывает в десятки раз медленнее работы на GPU.

Скажем так, она никогда не бывает быстрее. Зависит от CPU и GPU. Но в среднем — да, на порядки.

mord0d ★★★★★
(24.02.25 16:50:41 MSK)

Ответ на: комментарий от mord0d 24.02.25 16:45:08 MSK

Нет. nvidia использует CUDA и для неё нужен Torch в варианте -cu; AMD использует ROCm, и для него нужен Torch в варианте -rocm. Это две совершенно разные сборки Torch, которые не могут сосуществовать. Но можно поставить два разных торча в два разных venv’а.

-Понял. Что лучше использовать, amd или nvidia? (кто себя лучше ведет из них?)

The_doctor
(24.02.25 17:02:49 MSK) автор топика

Ответ на: комментарий от mord0d 24.02.25 16:45:08 MSK

Зависит от модели. Какие-то помещаются в 4G VRAM, каким-то нужен кластер из 256G(!) VRAM.

Я правильно понимаю, что в домашних условиях аналог яндекс Алисы, с которым хоть как-то поболтать можно, даже не стоит пытаться собирать?)

The_doctor
(24.02.25 17:09:14 MSK) автор топика

сейчас располагаю свободным железом в виде i3-4130, 7гб озу и майнерского варианта gtx 1050ti 3gb (p106-090)

Такое железо можешь просто в помойку выбросить, сейчас даже столичные бомжи на него не позарятся.

~~XOXO~~ ★
(24.02.25 17:18:42 MSK)

Ответ на: комментарий от XOXO 24.02.25 17:18:42 MSK

ну, за неимением горничной…))) так еще 2 компа стоят +- приличные, но один играми занят, а второй рабочий, но там radeon w5500 + gtx1630 (насколько знаю на этой радеонке не удастся завести ничего)

The_doctor
(24.02.25 17:20:52 MSK) автор топика

Ответ на: комментарий от The_doctor 24.02.25 17:02:49 MSK

Что лучше использовать, amd или nvidia? (кто себя лучше ведет из них?)

// Дисклеймер: у меня нет видеокарты. Уже лет двадцать.

В среднем по больнице с nvidia проблем меньше. ROCm сам по себе родился позже, и его прикручивать к нейросетям стали позже, а nvidia в этом плавает с самого старта.

Я правильно понимаю, что в домашних условиях аналог яндекс Алисы, с которым хоть как-то поболтать можно, даже не стоит пытаться собирать?)

Тебе это обойдётся очень дорого. Причём вначале разово для закупки железа соответствующего уровня, а потом регулярно за электричество (напомню что консьюмерская видеокарта жрёт всего 600-800W, тогда как промышленная жрёт уже за киловатт, а тебе для быстрой и точной реакции "ИИ" на твои команды понадобится не одна).

mord0d ★★★★★
(24.02.25 17:26:22 MSK)

Ответ на: комментарий от mord0d 24.02.25 17:26:22 MSK

понял, спасибо) значит для экспериментов ограничусь пока одной mi50, а потом может и вторую докуплю (правда скорее всего надо будет искать мамку с двумя честными х16 слотами, а то везде 16/4, в лучшем случае 16/8)

The_doctor
(24.02.25 17:29:45 MSK) автор топика

Ответ на: комментарий от The_doctor 24.02.25 17:20:52 MSK

насколько знаю на этой радеонке не удастся завести ничего)

RDNA 1.0 оно даже умеет удвоенную скорость при вычислениях с fp16.

Aber ★★★★★
(24.02.25 17:34:42 MSK)

Вы не указали детали применения, а от этого зависит практически все:

Транскрибция будет идти с видео+аудио или только с аудио потока?
Каков язык источника и желаемый язык результата? Русский, английский?
Какова длительность исходных фрагментов?

Obezyan ☆
(24.02.25 17:44:01 MSK)

Ответ на: комментарий от Obezyan 24.02.25 17:44:01 MSK

да, совсем вылетело из головы.

пока только аудио, записи звонков в рабочей атс. в будущем, возможно, будет и видео (совещания/презентации)
язык только русский
длительность приблизительно до 60 минут

The_doctor
(24.02.25 17:46:23 MSK) автор топика

Ответ на: комментарий от Aber 24.02.25 17:34:42 MSK

ух ты. спасибо. тогда можно будет попробовать и над ней поиздеваться. как раз обе видюшки на руках (она и 4060)

The_doctor
(24.02.25 17:47:16 MSK) автор топика

Ответ на: комментарий от Obezyan 24.02.25 17:44:01 MSK

Транскрибция будет идти с видео+аудио или только с аудио потока?

В любом случае это будет вначале перекодироваться в WAV, и уже потом обрабатываться.

Каков язык источника и желаемый язык результата? Русский, английский?

Влияет на "ассортимент" моделей и их качество.

Какова длительность исходных фрагментов?

Влияет на требования к RAM+VRAM. Чем длиннее исходник, тем больше ресурсов необходимо для его "разбора".

The_doctor, это всё для тебя комментарии, бибизян и без меня наверняка это знает.

mord0d ★★★★★
(24.02.25 17:51:13 MSK)

Ответ на: комментарий от mord0d 24.02.25 17:51:13 MSK

да, спасибо, всё читаю/впитываю)

The_doctor
(24.02.25 17:52:54 MSK) автор топика

Ответ на: комментарий от mord0d 24.02.25 16:45:08 MSK

Попробуй. Но даже если оно что-то сможет высрать, скорость тебе не понравится. (=

Касательно проца. тут больше что играет роль: частота, кол-во ядер, или всё разом? просто не дает покоя затея с xeon phi, в помощь видяшке можно наверное такое прикрутить?

The_doctor
(24.02.25 17:59:27 MSK) автор топика

Ответ на: комментарий от The_doctor 24.02.25 17:46:23 MSK

В таком случае советую обратить внимание на ultravox.

У них есть готовые сети которые требуют всего 1.5Gb памяти: 1B параметров, 8B параметров, 70B параметров, что вполне укладывается в ваше железо.

Более серьезные модели, такие как Qwen2-Audio-7B потребуют уже 16Gb памяти. Я рекомендую использовать именно видеопамять тк с оперативной памятью будет гораздо медленнее.

Есть еще пара десятков подобных сетей, можно протестить их все и выбрать подходящую.

Obezyan ☆
(24.02.25 18:00:07 MSK)

Мелкие варианты whisper в целом сравнительно терпимо работают и чисто на процессоре. Ну это если задача вида home assistant и распознавать надо один голос со скоростью близкой к реальному времени, а не «нагенерировать субтитры к 300 гбайт аудио вон в той папке».

PolarFox ★★★★★
(24.02.25 18:03:15 MSK)

Ответ на: комментарий от The_doctor 24.02.25 17:59:27 MSK

Касательно проца. тут больше что играет роль: частота, кол-во ядер, или всё разом?

Всё как обычно, количество ядер влияет на количество одновременно обрабатываемых команд, частота на количество оных за единицу времени.

просто не дает покоя затея с xeon phi, в помощь видяшке можно наверное такое прикрутить?

Поможет, но незначительно. Я уже писал что при наличии видеокарты процессор занимается только минимальной мелочью.

mord0d ★★★★★
(24.02.25 18:11:32 MSK)

Берёшь на это железо 3600 12gb за 20к, пытаешься реализовать задуманное.

Не хватает - тратишься дальше, продавая старое. Скорее всего хватит.

One ★★★★★
(24.02.25 18:15:46 MSK)

Ответ на: комментарий от Obezyan 24.02.25 18:00:07 MSK

понял, спасибо, будем почитать

The_doctor
(24.02.25 19:44:09 MSK) автор топика

Ответ на: комментарий от PolarFox 24.02.25 18:03:15 MSK

этот камень пока для испытаний. в боевом варианте проц будет попроще)

The_doctor
(24.02.25 19:57:45 MSK) автор топика

Ответ на: комментарий от mord0d 24.02.25 17:26:22 MSK

Карта не постоянно же жрёт свои киловатты.

anonymous
(24.02.25 19:59:17 MSK)

Ответ на: комментарий от mord0d 24.02.25 18:11:32 MSK

понял, оставлю эту затею на другое время. к тому же в боевом варианте предполагалось развернуть HA на селероне 4 поточном. правда пока не придумал, всё на одну машину впихнуть или под виспера отдельную поднять

The_doctor
(24.02.25 20:02:39 MSK) автор топика

Ответ на: комментарий от One 24.02.25 18:15:46 MSK

да, вот думаю пока её или mi50. что на той, что на той могли майнить.

The_doctor
(24.02.25 20:04:11 MSK) автор топика

Ответ на: комментарий от anonymous 24.02.25 19:59:17 MSK

это хорошо. я думал модель грузится и она в постоянку шарашит

The_doctor
(24.02.25 20:06:37 MSK) автор топика

Ответ на: комментарий от The_doctor 24.02.25 20:04:11 MSK

Mi50/60 есть и с 32гб, и вполне неплохо себя показывают в LLMках, но блин, это даже не RDNA и дропнули в новых ROCm поддержку

One ★★★★★
(24.02.25 21:24:17 MSK)

Ответ на: комментарий от anonymous 24.02.25 19:59:17 MSK

Да, только когда обрабатывает "запрос" и генерирует "ответ", но при активном использовании получается довольно часто.

Но, справедливости ради, более мощные видеокарты, жрущие больше, будут отрабатывать быстрее, и на дальних дистанциях могут оказаться выгоднее. Но это в теории, на практике такие замеры никто не проводил, по крайней мере мне о таких не известно.

mord0d ★★★★★
(24.02.25 21:29:49 MSK)

Ответ на: комментарий от The_doctor 24.02.25 17:20:52 MSK

ну, за неимением горничной…)))

Не еб* себе и другим голову. Если хочешь вкат в нейронки локальные, поскольку ты писал что:

Я новичок в теме нейросетей

Просто ставь себе сразу бомж-видяху типа NVIDIA GeForce RTX 4060 Ti с 16GB VRAM. И эксперементируй с чем хочешь. Это буквально минимум для вката сейчас.

~~XOXO~~ ★
(24.02.25 21:47:55 MSK)

Просто откажись от требования гонять нейросети локально, это полнейший бред, они слишком большие.
Гугол, мистраль и другие раздают свои большие сети нахаляву.

theurs ★★
(25.02.25 03:17:28 MSK)

Ответ на: комментарий от XOXO 24.02.25 21:47:55 MSK

да, видюк хороший. еще бы цена не такая кусачая была, без раздумий бы взял.

The_doctor
(25.02.25 09:02:41 MSK) автор топика

Ответ на: комментарий от theurs 25.02.25 03:17:28 MSK

тут именно надо локалку. коллега хочет поэкспериментировать, а мне (задача 2) чтобы к home assistant можно было прикрутить и без инета использовать

The_doctor
(25.02.25 09:03:43 MSK) автор топика

Ответ на: комментарий от One 24.02.25 21:24:17 MSK

да, ваша правда, в 6.3.3 уже значится как ограниченная. сейчас получше покопался, увидел (гугл подсовывал все это время для 5 версии документацию).

The_doctor
(25.02.25 09:10:56 MSK) автор топика

Ответ на: комментарий от XOXO 24.02.25 21:47:55 MSK

а что можете сказать насчет майнерских ускорителей типа cmp90 для таких задач?

The_doctor
(25.02.25 09:23:35 MSK) автор топика

Ответ на: комментарий от XOXO 24.02.25 21:47:55 MSK

Просто ставь себе сразу бомж-видяху типа NVIDIA GeForce RTX 4060 Ti с 16GB VRAM. И эксперементируй с чем хочешь. Это буквально минимум для вката сейчас.

Ложь!
Для трени — да, для использования — совершенно не обязательно. Но если хочется быстро, то да, лучше иметь что-то подобное.

mord0d ★★★★★
(25.02.25 10:03:56 MSK)

Ответ на: комментарий от theurs 25.02.25 03:17:28 MSK

гонять нейросети локально, это полнейший бред

Иметь приватные данные тоже бред?
Или ты наивно полагаешь что всякие ChatGPT не хранят и не используют в свою пользу документы, которые ты им скармливаешь на анализ?

mord0d ★★★★★
(25.02.25 10:06:02 MSK)

Ответ на: комментарий от One 24.02.25 18:15:46 MSK

Не хватает - берёшь теслу с Авито за 12к

поправил, не благодари

tiinn ★★★★★
(26.02.25 14:48:42 MSK)

Ответ на: комментарий от tiinn 26.02.25 14:48:42 MSK

она ж древняя. или ещё что-то да может?

The_doctor
(26.02.25 17:05:30 MSK) автор топика

Ответ на: комментарий от tiinn 26.02.25 14:48:42 MSK

Не хватает - берёшь теслу с Авито за 12к

поправил, не благодари

теслу с Авито

поправил еще разок
свежак, 24 год

olelookoe ★★★
(26.02.25 17:11:10 MSK)

Ответ на: комментарий от olelookoe 26.02.25 17:11:10 MSK

)))))) доля истины тут есть) на них вроде даже майнить пытались, игрушки запускали)

The_doctor
(26.02.25 17:13:58 MSK) автор топика

Ответ на: комментарий от mord0d 25.02.25 10:03:56 MSK

на правах техноизвращения родился вопрос: реально ли задействовать 2 карты nvidia разных поколений одновременно для работы нейронки? например rtx4060 и tesla k80?)

The_doctor
(26.02.25 17:33:53 MSK) автор топика

...новичок в теме нейросетей, поэтому

ты пришёл с этим на ЛОР, верно?

Мне жаль тебя разочаровывать, но вы (ты и другие) не сделаете задуманное.

Для обеих задач не нужен ИИ. То есть можно и без него обойтись.

sparkie ★★★★★
(26.02.25 18:05:45 MSK)

Ответ на: комментарий от The_doctor 26.02.25 17:33:53 MSK

Зависит от архитектуры сети, некоторые сети не позволяют разделение слоев таким образом, а большинство библиотек для создания инференсов не поддерживат подобное разделение в явном виде.

Тот же torch ориентирован больше на data parallelism для целей обучения сети, а не model parallelism для инференсов. Поэтому теоретически - можно, а практически придётся написать много пода под конкретные карты.

Obezyan ☆
(26.02.25 18:06:27 MSK)

← 1 2 →

←	Как указать DPI при удаленном запуске графических приложений по ssh -X?

General

Русский язык в терминале Linux, Ubuntu

→

Похожие темы