Вопрос по локальным нейросетям

1

2

Всем добрый день. Я новичок в теме нейросетей, поэтому прошу сильно не ругать).

Появился ряд вопросов по этой теме: Сейчас стоит 2 задачи:

Хотим сделать транскрибатор с использованием openai Whisper на своем железе и
Есть желание сделать голосовое управление без интернета для home assistant.

Отсюда ряд вопросов:

Какие системные требования для сетей под такие задачи? (в сети пишут разные вещи, но все +- около топа/предтопа)
Возможно ли установить в пк 2 разные видюхи одновременно и заставить нейронку работать на этом винегрете? (например radeon mi50 + gtx1630/intel arc b580)
Пока копал тему железа, вспомнил про специфичную игрушку в виде Intel xeon phi sc7220. Реально ли такое задействовать для работы нейронки? Или будет только жрать и коптить, а практического толку не будет?
Я правильно понимаю, что нейронка будет грузить видюк на полную только в момент обращения к ней/скармливания данных, а не на постоянную?
Нужен ли отдельный ссд под вышеописанные задачи?
Будет ли иметь значение процессор для таких задач? (чтобы знать уже точно, что проц можно какой-нибудь i3 поставить, а приоритет отдать ускорителям)
Где можно почитать описание разных моделей что умеют, в каких задачах применяются и тд? (или может есть мануал для чайников? с малого к большому)
сейчас располагаю свободным железом в виде i3-4130, 7гб озу и майнерского варианта gtx 1050ti 3gb (p106-090). стоит ли пытаться заводить что-то из вышеперечисленного на этом железе ради эксперимента, или захлебнется?

←	Как указать DPI при удаленном запуске графических приложений по ssh -X?

Русский язык в терминале Linux, Ubuntu

→

← 1 2 →

Ответ на: комментарий от Obezyan 24.02.25 18:00:07 MSK

Они все платные?

anonymous
(26.02.25 19:45:32 MSK)

Ответ на: комментарий от The_doctor 26.02.25 17:05:30 MSK

У мя вообще Nvidia p104-100 8gb. Что-то да может.

tiinn ★★★★★
(26.02.25 20:22:22 MSK)

Ответ на: комментарий от The_doctor 26.02.25 17:33:53 MSK

Точно на этот вопрос тебе даже разработчики nvidia не скажут. Но в целом Obezyan дело говорит. За исключением того, что для голосовых моделей обычно используется ONNX, но про него я ничего сказать не могу.

mord0d ★★★★★
(26.02.25 20:26:30 MSK)

Ответ на: комментарий от mord0d 25.02.25 10:03:56 MSK

Для тренировки как-то жидковато 16гб.

А так все больше моделей онлайн офигенных доступно, уже иметь дома для LLM что-то ниже 24гб где вмещаются хотя бы q5_K_M 22-32b модели - очень грустные траты денег.

One ★★★★★
(26.02.25 20:46:11 MSK)

Ответ на: комментарий от anonymous 26.02.25 19:45:32 MSK

Они все бесплатные и доступны для скачивания по ссылкам что я указал.

Obezyan ☆
(26.02.25 22:16:41 MSK)

Ответ на: комментарий от One 26.02.25 20:46:11 MSK

Для тренировки как-то жидковато 16гб.

Жидковато, но с меньшим количеством VRAM можно даже не пытаться.

А так все больше моделей онлайн офигенных доступно, уже иметь дома для LLM что-то ниже 24гб где вмещаются хотя бы q5_K_M 22-32b модели - очень грустные траты денег.

Это LLM. А сабжевый тред про STT/TTS, у них там несколько другие требования к ресурсам. У SD тоже свои, там 16G для одной модели 1.5 или SDXL хватит.

mord0d ★★★★★
(27.02.25 04:37:25 MSK)

Ответ на: комментарий от Obezyan 26.02.25 22:16:41 MSK

все бесплатные и доступны для скачивания по ссылкам

Справедливости ради, huggingface имеет далеко не самый очевидный интерфейс. Github-like интерфейс и структура репозитория не сильно подходит для этого, но учитывая разношёрстность контента, сложно придумать что-то лучше.

mord0d ★★★★★
(27.02.25 04:54:39 MSK)

Ответ на: комментарий от sparkie 26.02.25 18:05:45 MSK

это как? можно поподробнее?

The_doctor
(27.02.25 08:46:19 MSK) автор топика

Ответ на: комментарий от Obezyan 26.02.25 18:06:27 MSK

понял, оставлю эту идею. к тому же нашел от января новость, что nvidia сворачивает поддержку maxwell pascal volta в sdk 12.8, и решил не брать данные старые карты (а то получится, что сейчас может и подниму, а потом как перестанут какие-нибудь зависимости работать и начнется веселье)

The_doctor
(27.02.25 08:48:52 MSK) автор топика

Ответ на: комментарий от The_doctor 27.02.25 08:46:19 MSK

Для этого мне бы пришлось приложить часть своего диссера, включая куски кода и абстрактные модели, не забывая мозг. 😁 Как ты понимаешь, это невозможно.

sparkie ★★★★★
(27.02.25 11:41:32 MSK)

Ответ на: комментарий от sparkie 27.02.25 11:41:32 MSK

в свое время была придурь на микрофонах и советской логике сделать выключатели) вроде отпустило)

The_doctor
(27.02.25 12:25:37 MSK) автор топика

Ответ на: комментарий от mord0d 27.02.25 04:54:39 MSK

Никто в здравом уме через веб морду не качает, есть апи и свой пакет под python который позволяет качать парой строчек кода зная только имя модели на странице. Это все описано в их руководстве.

А гит репозитарий там для авторов модели, они иногда исправляют конфиги и тд.

Obezyan ☆
(27.02.25 16:10:20 MSK)

Ответ на: комментарий от Obezyan 27.02.25 16:10:20 MSK

есть апи и свой пакет под python который позволяет качать парой строчек кода

Да-да, отличная идея окунать новичков сразу в API huggingface, вместо того чтобы дать им не самую всратую и не самую тяжёлую модель и инструмент чтобы её запустить. (%

зная только имя модели на странице

Ну то есть ты понимаешь что нужно вначале зайти на сайт пробежаться по нему. (=

А гит репозитарий там для авторов модели, они иногда исправляют конфиги и тд.

Знаю. Но вот для пользователя можно было сделать обёрточку попроще. Опционально с переключалкой в настройках профиля easy/dev.

Но с другой стороны их позиция понятна, им не особо интересны потребители контента, они ориентированы на авторов в первую очередь.

mord0d ★★★★★
(27.02.25 18:16:24 MSK)

Ответ на: комментарий от mord0d 27.02.25 18:16:24 MSK

Но вот для пользователя можно было сделать обёрточку попроще.

Это сайт для людей которые знают Python, transformers и понимают с какой стороны подступаться к нейронным сетям.

Никто не ставил задачу дать мимокрокодилам без навыков в 2 клика мышкой запустить сеть. Ваша претензия не имеет смысла.

Obezyan ☆
(27.02.25 21:29:37 MSK)

Ответ на: комментарий от Obezyan 27.02.25 21:29:37 MSK

Никто не ставил задачу дать мимокрокодилам без навыков в 2 клика мышкой запустить сеть.

Ему альтернатив нет. Разве что для Stable Diffusion есть civitai, для ESRGAN и прочих апскейлеров ещё что-то было, и на этом в общем-то всё.

Ваша претензия не имеет смысла.

Претензия не столько к самому huggingface, сколько к отсутствию ему каких-либо юзер-френдли (на примере civitai для SD) альтернатив. Я прекрасно понимаю что hf универсален, он не только для LLM, но и для SD, vision, STT, TTS и всего-всего. И универсальный юзер-френдли интерфейс к нему не прикрутить — слишком много получится компромиссов не в пользу юзабилити.

Но мимокрокодилы тоже нужны. Говорю как бывший мимокрокодил, который решил просто потыкать палочкой, и в итоге быстро втянулся. Мне никто ничего не подсказывал, я учился всему на ходу и буквально на ощупь. Впрочем, мои знания всё ещё довольно поверхностны.

Мой знакомый держит (приватную) группу в Telegram по нейронкам. Если интересно, его акк @FormerSmith, я его предупредил что могут наведаться с ЛОРа.

mord0d ★★★★★
(27.02.25 22:01:01 MSK)

Ответ на: комментарий от mord0d 27.02.25 22:01:01 MSK

Мой знакомый держит (приватную) группу в Telegram

Спасибо, но у меня нет телеги. Цифровая гигиена.

Obezyan ☆
(27.02.25 22:03:19 MSK)

Ответ на: комментарий от Obezyan 27.02.25 22:03:19 MSK

Спасибо, но у меня нет телеги. Цифровая гигиена.

Нет так нет, я не настаиваю.
У меня тоже нет телеги. По тем же причинам. (=

mord0d ★★★★★
(27.02.25 22:16:21 MSK)

Ответ на: комментарий от mord0d 27.02.25 22:16:21 MSK

а вот я, думаю, что постучусь) буду в курсе хоть чего-нибудь) вдруг и профессию сменю потом)

The_doctor
(28.02.25 08:45:44 MSK) автор топика

Ответ на: комментарий от The_doctor 28.02.25 08:45:44 MSK

а вот я, думаю, что постучусь

Я бы сюда инвайт скинул, но он не захотел его предоставлять. Так что стучись ему в личку.

mord0d ★★★★★
(28.02.25 09:08:20 MSK)

Ответ на: комментарий от The_doctor 25.02.25 09:10:56 MSK

Ну это не мешает пользоваться, да и вулканом тоже, та же mi50 на уровне 3060, зато с 32гб памятью

One ★★★★★
(01.03.25 09:39:30 MSK)

Ответ на: комментарий от tiinn 24.02.25 16:25:49 MSK

и заставить нейронку работать на этом винегрете?

Можно, но придётся самому всю нейронку писать и учить. Ну и обмен между ними медленный будет, т.е. выигрыш в скорости очень сомнительный.

peregrine ★★★★★
(01.03.25 16:05:54 MSK)

Ответ на: комментарий от The_doctor 24.02.25 17:02:49 MSK

nvidia без вариантов

peregrine ★★★★★
(01.03.25 16:07:46 MSK)

Смотри, сам по себе whisper не очень большой и может тебе хватит качества и скорости квантованной модели. Ещё этих челиков посмотри, https://github.com/snakers4/silero-models#text-to-speech

Там есть ссылки на stt тоже, при том они для русского языка в первую очередь работают

peregrine ★★★★★
(01.03.25 16:12:21 MSK)
Последнее исправление: peregrine 01.03.25 16:13:16 MSK (всего исправлений: 2)

Ответ на: комментарий от Obezyan 27.02.25 21:29:37 MSK

Ой, словно там всё работает как надо. Зачастую обезьянычи туда говно заливают, которое требует невероятных версий библиотек, которые либо патченые, либо конфликтующие друг с другом и из-за этого работает не так как надо. Понятно что топ более-менее в порядке. Но я много интересного увидел, пока рассматривал задачу tts.

peregrine ★★★★★
(01.03.25 16:17:33 MSK)

Ответ на: комментарий от peregrine 01.03.25 16:05:54 MSK

обмен между ними медленный будет, т.е. выигрыш в скорости очень сомнительный.

Ага. Обмен-то через ОЗУ пойдёт. Стало быть, можно сразу нейронку на процессоре запускать - то на то и выйдет.

tiinn ★★★★★
(01.03.25 16:35:33 MSK)

Ответ на: комментарий от peregrine 01.03.25 16:17:33 MSK

обезьянычи туда говно заливают, которое требует невероятных версий библиотек, которые либо патченые, либо конфликтующие друг с другом и из-за этого работает не так как надо.

Обезьянычи разворачивают сети в conda окружении и имеют свои версии totch audio и тд под каждую сеть без каких-либо проблем.

Остальные скачивают через вебморду вместо апи, засирают систему специфичными комбинациями библиотек и продолжают жрать кактус таким образом. Зачем? Обезьянычам сие неведомо.

Obezyan ☆
(01.03.25 19:18:27 MSK)

Ответ на: комментарий от Obezyan 01.03.25 19:18:27 MSK

Обезьянычи разворачивают сети в conda окружении Словно я этого не знаю, лет 10 её юзаю ещё когда про неё никто толком не знал… Зачастую конда тебе ничем не поможет, особенно когда там биндинги ко всяким ffmpeg-ам патченным/кривым/прибитым к оффтопику версии автора (какой-нибудь сраной семёрки которая в его НИИ РОГА И КОПЫТА стоит или Horns and Hooves Labs если сей джентельмен обитает за океаном). Я полно видел «проектов» которые нельзя завести на заявленной конфигурации, но можно в условном оффтопике при заявленном онтопике и наоборот. Ещё веселее когда автор использует pip внутри conda и ставит конфликтующие версии библиотек, например в недавнем мне попалось что list в более новой версии библиотеки заменён на set, а у челика угадай что? В одном режиме работы поделия ожидается list а в другом set, а как итог результат работы краш, как хочешь ты крутись и ставь библиотеки у тебя либо одно не работает, либо другое.

А ещё бывает (у самого так было по невнимательности первый раз когда полез нейронками заниматься, убил 4 часа прежде чем понял в чём дело), когда кусок данных для проверки результатов попал в обучение. Цифры «точности» при таком огромные - 98-99% точности как нефиг делать. Вот только как реальные данные прилетают точность становится на уровне статистической погрешности. А теперь угадай сколько такого я видел в «забугорных уважаемых рецензируемых журналах, где не только статья но ещё и код на гитхабах лежит для красивого отчёта?» А разгадка простая - отрицательные результаты в науке не любят, как так деньги выдали, эксперимент провели, а точность получилась не выше чем у Васи который уже сделал свои 75% точности и переплюнуть его как-то не вышло. Но стоит подхимичить с подмешиванием данных и вот у нас 80% точность на тестовом датасете. Кто поопытнее химичит над самим датасетом, выкидывая оттуда все «нехорошие» данные, которые портят красивую картинку, ещё можно бесполезные метрики измерять для конкретной задачи (например, когда датасет не сбалансирован и 99% данных класса А а 1% класса Б то можно всегда говорить что у тебя А и вот 99% точности, а тут важно сколько ложноположительных и какой процент Б не распознаётся). Круто деньги не зря выделили.

anonymous
(02.03.25 04:35:37 MSK)

Ответ на: комментарий от anonymous 02.03.25 04:35:37 MSK

Блин, зачем богомерзкий маркдаун ввели в разметку. Словно на гитхабе вместо ЛОР-а. Уж лучше бы bbcode

anonymous
(02.03.25 04:37:20 MSK)

Ответ на: комментарий от anonymous 02.03.25 04:35:37 MSK

А зачем под анонимуса забились? Нормально же общались.

Понятно, что на платформе которая предоставляет БЕСПЛАТНЫЕ модели будут крупицы золота в море шлака. Просто не используйте шлак.

Не понятно, почему вы считаете что это минус платформы по расшариванию сетей. Это как обвинять гитхаб найдя там проекты которые не работают.

Для того же tts что вы упоминали ранее я использую suno/bark и при необходимости доучиваю. Но это не моё основное направление, я больше по BI-LSTM сетям.

Obezyan ☆
(02.03.25 10:15:53 MSK)

Ответ на: комментарий от One 01.03.25 09:39:30 MSK

её в свежих версиях rocm списали. поэтому покупка под вопросом (может я зря загоняюсь насчет этого?)

The_doctor
(03.03.25 09:36:10 MSK) автор топика

Ответ на: комментарий от peregrine 01.03.25 16:05:54 MSK

понял, спасибо. от винегрета отказался)

The_doctor
(03.03.25 09:37:08 MSK) автор топика

Ответ на: комментарий от The_doctor 03.03.25 09:36:10 MSK

Не специалист, но так то 6.2 спокойно используют и даже 5.X. В идеале на reddit пообщаться до покупки.

One ★★★★★
(03.03.25 10:07:28 MSK)

Ответ на: комментарий от One 03.03.25 10:07:28 MSK

понял, спасибо, будем и там спросить. так-то карточка интересная.

The_doctor
(03.03.25 11:00:41 MSK) автор топика

Купи апи, попробуй разные сети, а уже потом реши какое железо тебе надо и надо ли вообще запускать это локально (нет).

KillTheCat ★★★★★
(03.03.25 12:03:11 MSK)

Ответ на: комментарий от Obezyan 02.03.25 10:15:53 MSK

Я залогинен с компа просто. А комп стоит сейчас не у меня в комнате, чтоб его ночью включать.

peregrine ★★★★★
(05.03.25 21:29:31 MSK)

Ответ на: комментарий от tiinn 01.03.25 16:35:33 MSK

Ну тут могут быть варианты что тебе оперативки мало чтоб чисто в ОЗУ запустить. И чисто теоретически автоэнкодер может в середине (между энкодером и декодером) очень сильно данные сжимать, так что их там просто мало будет, но всё равно это какие-то граничные случаи, тем более привяжут тебя жестко к твоей архитектуре конкретной машинки и обучение будет очень медленным.

peregrine ★★★★★
(05.03.25 21:33:47 MSK)

Ответ на: комментарий от peregrine 05.03.25 21:33:47 MSK

Да. И вообще, как я гляжу, оно любит сперва всю модель в ОЗУ загрузить, а потом уже пихать в видеопамять. И, вроде бы, это необязательно, - но уверенности у меня нет.

tiinn ★★★★★
(05.03.25 21:56:34 MSK)

Есть желание сделать голосовое управление без интернета для home assistant.

whisper.cpp с минимальной моделью на цпу. Тебе же не целые часы транскрибировать надо а пару команд.

anonymous
(06.03.25 02:02:04 MSK)

Ответ на: комментарий от anonymous 06.03.25 02:02:04 MSK

да, ваша правда. можно будет попробовать

The_doctor
(06.03.25 16:55:26 MSK) автор топика

Ответ на: комментарий от anonymous 02.03.25 04:35:37 MSK

А разгадка простая - отрицательные результаты в науке не любят, как так деньги выдали, эксперимент провели, а точность получилась не выше чем у Васи который уже сделал свои 75% точности и переплюнуть его как-то не вышло.

Наука, вернее научное сообщество, куда-то не туда свернуло. В настоящей науке нормально относятся к отрицательным результатам. Иногда он даже ценнее положительного.

anonymous
(07.03.25 17:58:08 MSK)