LINUX.ORG.RU
ФорумTalks

Рыба и LLM мечты обычного человека

 , ,


0

1

Project DIGITS, AI суперкомпьютер всего лишь за 3000 долларов.

128gb общей памяти, вроде бы шестиканальный LPDDR5x со скоростью в 825GB/s, то есть теоретический потолок 12 tok/s на 70b с Q8

The box will ship with a special brew of Ubuntu Linux pre-configured to take advantage of the hardware.

https://cybersecuritynews.com/nvidia-personal-ai-supercomputer/

https://www.theregister.com/2025/01/07/nvidia_project_digits_mini_pc/

Близкий в конфигурации Mac Studio на М2 ультре в раза два подороже

★★★★★

лучше у супермикры взять стейк с 2хXeon, 8xH200, бп/флеш/озу на сдачу взять.
у неё есть certified value, полностью. до видимокарт/ссд/озу, на своём дизайне.
можно вплоть до ДЦ заказывать полным фаршем.

etwrq ★★★★★
()
Последнее исправление: etwrq (всего исправлений: 1)
Ответ на: комментарий от etwrq

«обычного человека», а не предприятия. Нужно повернуться к человеку лицом, товарищ! )

One ★★★★★
() автор топика

Все это не нужно в реальности, кроме разработки решений под ключ. Хочешь поиграться с LLM - сходи на Selectel, арендуй тачку с карточками в почасовом режиме и играйся.

В реальности быстро выясняется, что либо оно на поиграться на пару дней тебе. Либо мощности нужны на десятки килобаксов железа минимум и выгоднее арендовать на первое время.

Norgat ★★★★★
()
Ответ на: комментарий от etwrq

или супермикру H14 двухсокетную, два AMD проца каждый с 192 ядрами и H200 туда понаставить

linuxoidspb
()

Их еще и 2 штуки объединить возможно для запуска 405B моделей. И как я понимаю по отдельному упоминанию ConnectX соединение будет в районе 400-800Gbit.

Жду мая, если не запорят элементарные вещи как mac studio/mac mini то куплю, возможно даже два.

WSL_user
()

Здорово, конкуренция работает. Ждём от интел 24 гб GPU за 300 баксов.

foror ★★★★★
()
Ответ на: комментарий от etwrq

лучше у супермикры взять стейк с 2хXeon, 8xH200

Что-то на баринском. Сейчас проще 3090 24 GB взять на авите и через удлинители на серверную материнку прошлых поколений зацепить эту гирлянду.

foror ★★★★★
()
Ответ на: комментарий от foror

Q4 влезет и за глаза. Q5_K_M увы, нет.

One ★★★★★
() автор топика
Ответ на: комментарий от etwrq

вам за продакт после «гипотезы» никто не заплатит, ещё и штрафов навернут)

Что ещё за продакт? Мне для своего бизнеса нужен инференс за недорого, чтобы LLM-ка вместо продавца заявки принимала в моей глубинке, где пинг до США под 200 мс. А дешёвых и простых решений для этого нет сейчас на рынке. Но вот первые блины пошли.

foror ★★★★★
()
Последнее исправление: foror (всего исправлений: 1)
Ответ на: комментарий от micronekodesu

Домашнее задание с детьми делать, рецепт коктейля из водки и армянского коньяка правильно подобрать, обработать данные по работе в отчёт.

One ★★★★★
() автор топика
Ответ на: комментарий от micronekodesu

LLM мечты обычного человека

А зачем оно обычному человеку нужно?

Тут оно позиционируется как developer workstation, а не обычному человеку. Но как обычный человек я бы хотел продвинутый спеллчекер и переводчик на localhost, интегрированный в emacs. ollama на что-то подобное уже способна. На android хочу хороший синхронный переводчик звонков, потому что не во всех странах курьеры и госслужащие знают английский, а я не знаю их язык.

snizovtsev ★★★★★
()
Последнее исправление: snizovtsev (всего исправлений: 3)
Ответ на: комментарий от micronekodesu

24гб памяти игровой видеокарты очень впритык для ИИ для кодинга. 2-4 видеокарты - громоздко и дорого. Свои проекты нет большой проблемы в mistral или gemini облака закидывать, но рабочие не хотелось бы. Проблема встает еще острее когда применений становится больше одного и начинаешь жонглировать несколькими ИИ под разные задачи каждый из которых влазит в видеокарту, но не 2-3 сразу.

WSL_user
()
Ответ на: комментарий от Norgat

В реальности быстро выясняется, что либо оно на поиграться на пару дней тебе. Либо мощности нужны на десятки килобаксов железа минимум и выгоднее арендовать на первое время.

Цены на аренду дорогих решений с GPU такие, чтобы владелец оборудования окупал его примерно за полгода, не более. Поэтому только если поиграться или очень эпизодически использовать.

praseodim ★★★★★
()
Ответ на: комментарий от snizovtsev

Вот сейчас зашел на Selectel, 32 vCPU, 128 RAM, 8xA100 по 40 Gb - 1552 руб/час ($15/h). Где $50?

Если что, одна A100 40GB стоит $4500, https://www.ebay.com/shop/nvidia-tesla-a100?_nkw=nvidia+tesla+a100

Те такая сборка у нас тянет на 36к только по видеокартам. Если мы берем по $15 это 2400 часов. В году 8760 часов. Это 25% от него.

Но главный нюанс тут в том, что чтобы утилизировать такую мощность хотя бы на 500 часов, нужно потратить в 10-20 раз больше времени на сбор и подготовку данных. Что на порядок дороже стоимости железа. А если там данных для обучения с гулькин нос, то там и потратится сильно меньше времени (десятки часов суммарно).

Поэтому если поиграться - дешевле арендовать. А если все серьезно, то там просто посчитают уже, потому что данные в любом случае дороже будут стоить.

Norgat ★★★★★
()
Ответ на: комментарий от One

Домашнее задание с детьми делать, рецепт коктейля из водки и армянского коньяка правильно подобрать, обработать данные по работе в отчёт.

 - А есть вы тоже за меня будете?
 - Ага!

«Двое из ларца, одинаковых с лица».

alysnix ★★★
()
Ответ на: комментарий от Norgat

Тут ещё надо сделать обвязку, чтобы быстро гасить/поднимать виртуалку пока она не используется (ты спишь). Если задача требует быстрого nvme и сетевая ФС не подходит, то наверное это может быть трудозатратно.

snizovtsev ★★★★★
()
Последнее исправление: snizovtsev (всего исправлений: 1)
Ответ на: комментарий от imul

с шестью пальцами на руках

Можно на 3д принтере распечатать шестой палец, который одевается на руку, и, если вдруг тебя кто-то заснимет, можно утверждать, что это ИИ)

goingUp ★★★★★
()

Пузырь лопает, пора сливать лохам неликвид.

BceM_IIpuBeT ★★☆☆☆
()
Ответ на: комментарий от snizovtsev

Нет в этом ничего трудозатратного. Есть API, shutdown по завершению задачи тоже никто не отменял.

Ну и в целом, пайплайн для обучения выглядит так: ты готовишь данные 10х-100х времени, потом за х обучаешь.

Само исполнение это процесс не дорогой, обычно на порядок дешевле исполнения (для обучения нужно много видеопамяти, в разы больше чем для исполнения, тк то, что обучается на 80 гб памяти для исполнения уместится в 16).

Хинт, в том же Селектеле можно выключить тачку, добавить/убавить видеокарт, включить ее. Обучил, поменял карты, оценивай качество сетки.

Norgat ★★★★★
()
Ответ на: комментарий от Norgat

Ну мне например не очень интересно обучение через high-level фреймворки (кроме как запустить что-то готовое на посмотреть/сделать минимальный кастом), а вот поиграться с low-level сетапами CUDA/GPUDirect/RDMA/Infiniband у себя дома было бы интереснее, чем на виртуалках.

snizovtsev ★★★★★
()
Последнее исправление: snizovtsev (всего исправлений: 1)
Ответ на: комментарий от Norgat

Плюс есть ollama, которая будет активно развиваться, предоставляя полезные open source модельки всем желающим. Если там появится, например, какая-нибудь жирная полезная моделька которая генерит summary что делает каждый класс в кодовой базе, то на своём железе у себя дома я её смогу её быстро запустить на проприетарном коде работодателя. А заливать на Selectel левому дяде – будет строгим нарушением безопасности/NDA. Просить сервер у работодателя – может быть долгая нудная бюрократия.

snizovtsev ★★★★★
()
Ответ на: комментарий от snizovtsev

Это ты так шутишь сейчас? Те загрузить данные на личный комп который в контур безопасности не включен (на то он и личный), где сотрудник может делать что угодно и сетка не контролируется это меньшее нарушение безопасности чем заливка данных на сервак, где можно навешать ограничений и, хотя бы, в него флешку нельзя воткнуть?

С Selectel компания может заключить официальный договор как с юрлицом с прописанными условиями использования. Тут, хотя бы, ответственность есть.

ИМХО, если тебе разрешено сливать код на личным комп, то все остальное - фантазии.

Norgat ★★★★★
()
Ответ на: комментарий от Norgat

Да вообще-то в большинстве remote job компаниях так и просходит. Даже там где выдают корпоративный ноут – он ничем особенно от личного не отличается, кроме того что за тебя шифрование диска настроили и чуть меньше левого софта. И флешку локально воткнуть, и код локально зачекаутить.

snizovtsev ★★★★★
()
Последнее исправление: snizovtsev (всего исправлений: 1)

Это какая-то дичь чтобы отбить кожу крокодила с куртки хуанга.

Они там заявляют производительность вычислений для Q4 точности с развертыванием на 128Gb DDR5.

Максимально урезанную по точности (квантизированную) модель суют в оперативную память и предлагают обсчитывать ее на ARM CPU + какой-то обрезок от GPU чипа нового поколения (если кремний в RTX 5090 условно core i9, то в эти встройки идет отбраковка аля core i3). Т.е. кремниевый мусор который даже на 5070 не поставить.

Сейчас какая-нибудь llama.cpp работает по такой же схеме на обычном десктопе. Эта коробочка будет работать примерно также.

Obezyan
()
Ответ на: комментарий от Obezyan

Покажете альтернативы? Пока в голову приходят только 8 канальный DDR5 эпик/зион сервер, либо 4x RTX3090 + серверная или криптомайнерская материнка. Оба варианта чуточку неудобней и больше.

WSL_user
()
Ответ на: комментарий от imul

Да, с пальцами проблема, ковырял эту тему примерно год назад. Лучшие модели с моими доработками, inpainting и использованием control net могли вот так.

Obezyan
()
Последнее исправление: Obezyan (всего исправлений: 1)
Ответ на: комментарий от WSL_user

Покажете альтернативы?

Альтернативы вычислениям с 4-битной точностью? Это просто не имеет смысла. Для обучения/дообучения нужно fp16, для нормального прототипирования - fp8. fp4 это просто запустить модель с урезанной точностью в оперативной памяти.

Ширину шины данных не указали, производительность fp8/fp16 не указали, объем видеопамяти не указали (т.к. его походу нет), только унифицированную DDR5 (не GDDR6/HBM), вместо проца воткнули ARM (ничего против не имею, но ARM не про расчеты). Эта коробка сугубо чтобы запускать большие и неточные (fp4) модели «наслаждаясь» скоростью примерно в 8-10 токенов в секунду.

Obezyan
()
Последнее исправление: Obezyan (всего исправлений: 1)
Ответ на: комментарий от Obezyan

Насколько верны данные не знаю, но от exo labs: fp16 - 250 tflops, fp8 - 500 tflops, 128gb lpddr5x 512Gb/s (8 каналов). Никто не ограничивал коробку до fp4, там такой же blackwell как и везде.

WSL_user
()
Последнее исправление: WSL_user (всего исправлений: 1)
Ответ на: комментарий от WSL_user

fp16 - 250 tflops, fp8 - 500 tflops

Это прям сильно, подождем тесты.

Никто не ограничивал коробку до fp4, там такой же blackwell как и везде.

Понятно что ограничения нет, просто есть подозрение что чипы там не такие же, а именно те которые не смогли пройти по качеству в 5070, соответственно скорость вычислений у них ниже в fp8/fp16. Но опять же, повторюсь, надо ждать реальных тестов.

Obezyan
()
Последнее исправление: Obezyan (всего исправлений: 1)
Ответ на: комментарий от foror

Неужто интел все полимеры опять просрёт?

Вот такое впечатление по новостям что в части бытового ИИ, AMD уверенно всё просирает, а не Интел. Скомканный анонс RDNA4 ни о чём, анонс производительных, но унылых в плане LLM Ryzen-ов со стареньким RDNA3.5. У интела хотя бы виден свет в конце тунёля с очень интересными XMX ядрами, что изначально спроектированы с упором на целочисленные операции.

One ★★★★★
() автор топика
Ответ на: комментарий от snizovtsev

Вы либо трусы оденьте, либо крестик повесьте на место.
Коммерчески значимое LLM/AI начинается с 4хB200. Меньшее - проверка гипотезы/разработка. Вот и думайте дальше.
Вас и на таможне не пропустят если у вас > 2k$
+вдруг ваше llm/ai двойного назначения, +20 лет строгоча, с конфискацией и без удо)

etwrq ★★★★★
()
Последнее исправление: etwrq (всего исправлений: 2)
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)