Рыба и LLM мечты обычного человека

лучше у супермикры взять стейк с 2хXeon, 8xH200, бп/флеш/озу на сдачу взять.
у неё есть certified value, полностью. до видимокарт/ссд/озу, на своём дизайне.
можно вплоть до ДЦ заказывать полным фаршем.

etwrq ★★★★★
(07.01.25 11:54:22 MSK)
Последнее исправление: etwrq 07.01.25 11:59:37 MSK (всего исправлений: 1)

Ответ на: комментарий от etwrq 07.01.25 11:54:22 MSK

Одна H200 стоит 15к, не?

One ★★★★★
(07.01.25 12:00:13 MSK) автор топика

Ответ на: комментарий от One 07.01.25 12:00:13 MSK

а у вас commercial value, или шашечки?

etwrq ★★★★★
(07.01.25 12:00:54 MSK)

Ответ на: комментарий от etwrq 07.01.25 12:00:54 MSK

«обычного человека», а не предприятия. Нужно повернуться к человеку лицом, товарищ! )

One ★★★★★
(07.01.25 12:01:36 MSK) автор топика

Ответ на: комментарий от One 07.01.25 12:01:36 MSK

вам за продакт после «гипотезы» никто не заплатит, ещё и штрафов навернут)

etwrq ★★★★★
(07.01.25 12:03:10 MSK)

Все это не нужно в реальности, кроме разработки решений под ключ. Хочешь поиграться с LLM - сходи на Selectel, арендуй тачку с карточками в почасовом режиме и играйся.

В реальности быстро выясняется, что либо оно на поиграться на пару дней тебе. Либо мощности нужны на десятки килобаксов железа минимум и выгоднее арендовать на первое время.

Norgat ★★★★★
(07.01.25 12:51:28 MSK)

Ответ на: комментарий от etwrq 07.01.25 11:54:22 MSK

или супермикру H14 двухсокетную, два AMD проца каждый с 192 ядрами и H200 туда понаставить

linuxoidspb ★
(07.01.25 13:58:15 MSK)

Ссылка

Их еще и 2 штуки объединить возможно для запуска 405B моделей. И как я понимаю по отдельному упоминанию ConnectX соединение будет в районе 400-800Gbit.

Жду мая, если не запорят элементарные вещи как mac studio/mac mini то куплю, возможно даже два.

WSL_user
(07.01.25 15:22:18 MSK)

Ответ на: комментарий от WSL_user 07.01.25 15:22:18 MSK

для запуска 405B моделей

Там же под терабайт памяти нужно, если не обрезки всякие запиливать.

foror ★★★★★
(07.01.25 16:09:30 MSK)

Здорово, конкуренция работает. Ждём от интел 24 гб GPU за 300 баксов.

foror ★★★★★
(07.01.25 16:10:42 MSK)

Ссылка

Ответ на: комментарий от foror 07.01.25 16:09:30 MSK

Примерно 230гб хватит под Q4. Тут как раз 240+ гб в паре.

WSL_user
(07.01.25 16:12:09 MSK)

Ссылка

Ответ на: комментарий от etwrq 07.01.25 11:54:22 MSK

лучше у супермикры взять стейк с 2хXeon, 8xH200

Что-то на баринском. Сейчас проще 3090 24 GB взять на авите и через удлинители на серверную материнку прошлых поколений зацепить эту гирлянду.

foror ★★★★★
(07.01.25 16:13:19 MSK)

Ссылка

Ответ на: комментарий от foror 07.01.25 16:09:30 MSK

Q4 влезет и за глаза. Q5_K_M увы, нет.

One ★★★★★
(07.01.25 16:13:41 MSK) автор топика

Ссылка

Ответ на: комментарий от etwrq 07.01.25 12:03:10 MSK

вам за продакт после «гипотезы» никто не заплатит, ещё и штрафов навернут)

Что ещё за продакт? Мне для своего бизнеса нужен инференс за недорого, чтобы LLM-ка вместо продавца заявки принимала в моей глубинке, где пинг до США под 200 мс. А дешёвых и простых решений для этого нет сейчас на рынке. Но вот первые блины пошли.

foror ★★★★★
(07.01.25 16:16:57 MSK)
Последнее исправление: foror 07.01.25 16:17:48 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от etwrq 07.01.25 11:54:22 MSK

Супермикру Xeon и в целом ATX не положешь в рюкзак, и не пройдёшь таможню без гемора в зелёном коридоре.

snizovtsev ★★★★★
(07.01.25 16:42:01 MSK)
Последнее исправление: snizovtsev 07.01.25 16:49:25 MSK (всего исправлений: 2)

Кучно пошли https://servernews.ru/1116283 (до 70b правда цены нет) Неужто интел все полимеры опять просрёт?

foror ★★★★★
(07.01.25 16:43:40 MSK)
Последнее исправление: foror 07.01.25 16:44:05 MSK (всего исправлений: 1)

Ответ на: комментарий от Norgat 07.01.25 12:51:28 MSK

Так топовые карточки на Selectel под $50 в час наверное и выйдут. 60 часов дебага и уже выгоднее своё купить.

snizovtsev ★★★★★
(07.01.25 16:46:07 MSK)

LLM мечты обычного человека

А зачем оно обычному человеку нужно?

micronekodesu ★★★
(07.01.25 16:58:00 MSK)

Ответ на: комментарий от micronekodesu 07.01.25 16:58:00 MSK

Домашнее задание с детьми делать, рецепт коктейля из водки и армянского коньяка правильно подобрать, обработать данные по работе в отчёт.

One ★★★★★
(07.01.25 17:03:20 MSK) автор топика

Ответ на: комментарий от micronekodesu 07.01.25 16:58:00 MSK

LLM мечты обычного человека

А зачем оно обычному человеку нужно?

Тут оно позиционируется как developer workstation, а не обычному человеку. Но как обычный человек я бы хотел продвинутый спеллчекер и переводчик на localhost, интегрированный в emacs. ollama на что-то подобное уже способна. На android хочу хороший синхронный переводчик звонков, потому что не во всех странах курьеры и госслужащие знают английский, а я не знаю их язык.

snizovtsev ★★★★★
(07.01.25 17:09:26 MSK)
Последнее исправление: snizovtsev 07.01.25 17:10:54 MSK (всего исправлений: 3)

Ссылка

Ответ на: комментарий от micronekodesu 07.01.25 16:58:00 MSK

24гб памяти игровой видеокарты очень впритык для ИИ для кодинга. 2-4 видеокарты - громоздко и дорого. Свои проекты нет большой проблемы в mistral или gemini облака закидывать, но рабочие не хотелось бы. Проблема встает еще острее когда применений становится больше одного и начинаешь жонглировать несколькими ИИ под разные задачи каждый из которых влазит в видеокарту, но не 2-3 сразу.

WSL_user
(07.01.25 17:22:38 MSK)

Ссылка

Ответ на: комментарий от Norgat 07.01.25 12:51:28 MSK

В реальности быстро выясняется, что либо оно на поиграться на пару дней тебе. Либо мощности нужны на десятки килобаксов железа минимум и выгоднее арендовать на первое время.

Цены на аренду дорогих решений с GPU такие, чтобы владелец оборудования окупал его примерно за полгода, не более. Поэтому только если поиграться или очень эпизодически использовать.

praseodim ★★★★★
(07.01.25 18:07:35 MSK)

Ссылка

Ответ на: комментарий от snizovtsev 07.01.25 16:46:07 MSK

Рублей.

lenin386 ★★★★
(07.01.25 18:14:03 MSK)

Ссылка

Ответ на: комментарий от snizovtsev 07.01.25 16:46:07 MSK

Вот сейчас зашел на Selectel, 32 vCPU, 128 RAM, 8xA100 по 40 Gb - 1552 руб/час ($15/h). Где $50?

Если что, одна A100 40GB стоит $4500, https://www.ebay.com/shop/nvidia-tesla-a100?_nkw=nvidia+tesla+a100

Те такая сборка у нас тянет на 36к только по видеокартам. Если мы берем по $15 это 2400 часов. В году 8760 часов. Это 25% от него.

Но главный нюанс тут в том, что чтобы утилизировать такую мощность хотя бы на 500 часов, нужно потратить в 10-20 раз больше времени на сбор и подготовку данных. Что на порядок дороже стоимости железа. А если там данных для обучения с гулькин нос, то там и потратится сильно меньше времени (десятки часов суммарно).

Поэтому если поиграться - дешевле арендовать. А если все серьезно, то там просто посчитают уже, потому что данные в любом случае дороже будут стоить.

Norgat ★★★★★
(07.01.25 19:22:25 MSK)

Ответ на: комментарий от One 07.01.25 17:03:20 MSK

Домашнее задание с детьми делать, рецепт коктейля из водки и армянского коньяка правильно подобрать, обработать данные по работе в отчёт.

 - А есть вы тоже за меня будете?
 - Ага!

«Двое из ларца, одинаковых с лица».

alysnix ★★★
(07.01.25 19:31:53 MSK)

Ссылка

Ответ на: комментарий от micronekodesu 07.01.25 16:58:00 MSK

Генерить картинки голых баб с шестью пальцами на руках.

imul ★★★★★
(07.01.25 20:08:48 MSK)

Ответ на: комментарий от Norgat 07.01.25 19:22:25 MSK

Тут ещё надо сделать обвязку, чтобы быстро гасить/поднимать виртуалку пока она не используется (ты спишь). Если задача требует быстрого nvme и сетевая ФС не подходит, то наверное это может быть трудозатратно.

snizovtsev ★★★★★
(07.01.25 20:41:02 MSK)
Последнее исправление: snizovtsev 07.01.25 20:41:11 MSK (всего исправлений: 1)

Ответ на: комментарий от imul 07.01.25 20:08:48 MSK

с шестью пальцами на руках

Можно на 3д принтере распечатать шестой палец, который одевается на руку, и, если вдруг тебя кто-то заснимет, можно утверждать, что это ИИ)

goingUp ★★★★★
(07.01.25 20:45:09 MSK)

Ссылка

Пузырь лопает, пора сливать лохам неликвид.

BceM_IIpuBeT ★★☆☆☆
(07.01.25 20:46:18 MSK)

Ссылка

Ответ на: комментарий от snizovtsev 07.01.25 20:41:02 MSK

Нет в этом ничего трудозатратного. Есть API, shutdown по завершению задачи тоже никто не отменял.

Ну и в целом, пайплайн для обучения выглядит так: ты готовишь данные 10х-100х времени, потом за х обучаешь.

Само исполнение это процесс не дорогой, обычно на порядок дешевле исполнения (для обучения нужно много видеопамяти, в разы больше чем для исполнения, тк то, что обучается на 80 гб памяти для исполнения уместится в 16).

Хинт, в том же Селектеле можно выключить тачку, добавить/убавить видеокарт, включить ее. Обучил, поменял карты, оценивай качество сетки.

Norgat ★★★★★
(07.01.25 20:53:41 MSK)

Ответ на: комментарий от Norgat 07.01.25 20:53:41 MSK

Ну мне например не очень интересно обучение через high-level фреймворки (кроме как запустить что-то готовое на посмотреть/сделать минимальный кастом), а вот поиграться с low-level сетапами CUDA/GPUDirect/RDMA/Infiniband у себя дома было бы интереснее, чем на виртуалках.

snizovtsev ★★★★★
(07.01.25 21:45:29 MSK)
Последнее исправление: snizovtsev 07.01.25 21:45:45 MSK (всего исправлений: 1)

Ответ на: комментарий от snizovtsev 07.01.25 21:45:29 MSK

Тогда ты не про LLM, а про настройку железа, это другая задача уже.

Norgat ★★★★★
(07.01.25 21:47:30 MSK)

Ответ на: комментарий от Norgat 07.01.25 21:47:30 MSK

Плюс есть ollama, которая будет активно развиваться, предоставляя полезные open source модельки всем желающим. Если там появится, например, какая-нибудь жирная полезная моделька которая генерит summary что делает каждый класс в кодовой базе, то на своём железе у себя дома я её смогу её быстро запустить на проприетарном коде работодателя. А заливать на Selectel левому дяде – будет строгим нарушением безопасности/NDA. Просить сервер у работодателя – может быть долгая нудная бюрократия.

snizovtsev ★★★★★
(07.01.25 21:54:49 MSK)

Ответ на: комментарий от snizovtsev 07.01.25 21:54:49 MSK

Это ты так шутишь сейчас? Те загрузить данные на личный комп который в контур безопасности не включен (на то он и личный), где сотрудник может делать что угодно и сетка не контролируется это меньшее нарушение безопасности чем заливка данных на сервак, где можно навешать ограничений и, хотя бы, в него флешку нельзя воткнуть?

С Selectel компания может заключить официальный договор как с юрлицом с прописанными условиями использования. Тут, хотя бы, ответственность есть.

ИМХО, если тебе разрешено сливать код на личным комп, то все остальное - фантазии.

Norgat ★★★★★
(07.01.25 22:06:23 MSK)

Ответ на: комментарий от Norgat 07.01.25 22:06:23 MSK

Да вообще-то в большинстве remote job компаниях так и просходит. Даже там где выдают корпоративный ноут – он ничем особенно от личного не отличается, кроме того что за тебя шифрование диска настроили и чуть меньше левого софта. И флешку локально воткнуть, и код локально зачекаутить.

snizovtsev ★★★★★
(07.01.25 22:22:57 MSK)
Последнее исправление: snizovtsev 07.01.25 22:24:33 MSK (всего исправлений: 1)

Ссылка

Это какая-то дичь чтобы отбить кожу крокодила с куртки хуанга.

Они там заявляют производительность вычислений для Q4 точности с развертыванием на 128Gb DDR5.

Максимально урезанную по точности (квантизированную) модель суют в оперативную память и предлагают обсчитывать ее на ARM CPU + какой-то обрезок от GPU чипа нового поколения (если кремний в RTX 5090 условно core i9, то в эти встройки идет отбраковка аля core i3). Т.е. кремниевый мусор который даже на 5070 не поставить.

Сейчас какая-нибудь llama.cpp работает по такой же схеме на обычном десктопе. Эта коробочка будет работать примерно также.

Obezyan ☆
(08.01.25 00:07:17 MSK)

Ответ на: комментарий от Obezyan 08.01.25 00:07:17 MSK

Покажете альтернативы? Пока в голову приходят только 8 канальный DDR5 эпик/зион сервер, либо 4x RTX3090 + серверная или криптомайнерская материнка. Оба варианта чуточку неудобней и больше.

WSL_user
(08.01.25 00:20:20 MSK)

Ответ на: комментарий от imul 07.01.25 20:08:48 MSK

Да, с пальцами проблема, ковырял эту тему примерно год назад. Лучшие модели с моими доработками, inpainting и использованием control net могли вот так.

Obezyan ☆
(08.01.25 00:21:12 MSK)
Последнее исправление: Obezyan 08.01.25 00:45:18 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от WSL_user 08.01.25 00:20:20 MSK

Покажете альтернативы?

Альтернативы вычислениям с 4-битной точностью? Это просто не имеет смысла. Для обучения/дообучения нужно fp16, для нормального прототипирования - fp8. fp4 это просто запустить модель с урезанной точностью в оперативной памяти.

Ширину шины данных не указали, производительность fp8/fp16 не указали, объем видеопамяти не указали (т.к. его походу нет), только унифицированную DDR5 (не GDDR6/HBM), вместо проца воткнули ARM (ничего против не имею, но ARM не про расчеты). Эта коробка сугубо чтобы запускать большие и неточные (fp4) модели «наслаждаясь» скоростью примерно в 8-10 токенов в секунду.

Obezyan ☆
(08.01.25 00:37:19 MSK)
Последнее исправление: Obezyan 08.01.25 00:46:01 MSK (всего исправлений: 1)

Ответ на: комментарий от Obezyan 08.01.25 00:37:19 MSK

Насколько верны данные не знаю, но от exo labs: fp16 - 250 tflops, fp8 - 500 tflops, 128gb lpddr5x 512Gb/s (8 каналов). Никто не ограничивал коробку до fp4, там такой же blackwell как и везде.

WSL_user
(08.01.25 00:46:14 MSK)
Последнее исправление: WSL_user 08.01.25 00:47:41 MSK (всего исправлений: 1)

Ответ на: комментарий от WSL_user 08.01.25 00:46:14 MSK

fp16 - 250 tflops, fp8 - 500 tflops

Это прям сильно, подождем тесты.

Никто не ограничивал коробку до fp4, там такой же blackwell как и везде.

Понятно что ограничения нет, просто есть подозрение что чипы там не такие же, а именно те которые не смогли пройти по качеству в 5070, соответственно скорость вычислений у них ниже в fp8/fp16. Но опять же, повторюсь, надо ждать реальных тестов.

Obezyan ☆
(08.01.25 01:03:32 MSK)
Последнее исправление: Obezyan 08.01.25 01:03:50 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от foror 07.01.25 16:43:40 MSK

Неужто интел все полимеры опять просрёт?

Вот такое впечатление по новостям что в части бытового ИИ, AMD уверенно всё просирает, а не Интел. Скомканный анонс RDNA4 ни о чём, анонс производительных, но унылых в плане LLM Ryzen-ов со стареньким RDNA3.5. У интела хотя бы виден свет в конце тунёля с очень интересными XMX ядрами, что изначально спроектированы с упором на целочисленные операции.

One ★★★★★
(08.01.25 01:05:10 MSK) автор топика

Ссылка

Ответ на: комментарий от snizovtsev 07.01.25 16:42:01 MSK

Вы либо трусы оденьте, либо крестик повесьте на место.
Коммерчески значимое LLM/AI начинается с 4хB200. Меньшее - проверка гипотезы/разработка. Вот и думайте дальше.
Вас и на таможне не пропустят если у вас > 2k$
+вдруг ваше llm/ai двойного назначения, +20 лет строгоча, с конфискацией и без удо)

etwrq ★★★★★
(08.01.25 13:49:31 MSK)
Последнее исправление: etwrq 08.01.25 13:55:08 MSK (всего исправлений: 2)

Ссылка

Похожие темы