LINUX.ORG.RU

Яндекс выложил в открытый доступ языковую модель YandexGPT-5-Lite

 , ,

Яндекс выложил в открытый доступ языковую модель YandexGPT-5-Lite

0

3

Архитектура новой языковой модели похожа на Llama или Qwen, но она обучалась полностью с нуля. Похожесть позволяет использовать тот же инструментарий. Pretrain-версия большой языковой модели YandexGPT 5 Lite на 8B параметров с длиной контекста 32k токенов. При обучении модели особое внимание уделялось русскому языку, материалы на русском составили более 70% датасета.

Старшая модель YandexGPT 5 доступна в Алисе и на сайте Яндекса, но она в открытый доступ выложена не будет.

В своей категории модель достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей, а по многим другим — превосходит их. Например, по результатам внутреннего слепого попарного сравнения (side-by-side) для широкого потока запросов YandexGPT 5 Pro превосходит YandexGPT 4 Pro в 67% случаев и не уступает GPT-4o.

>>> Подробности на Хабре

>>> Скачать

★★★★★

Проверено: dataman ()
Последнее исправление: Dimez (всего исправлений: 5)
Ответ на: комментарий от mshewzov

У меня подключён Doczilla AI, который как раз на базе ChatGPT, так вот он частенько просто придумывает статьи и законы.

«придумывает статьи и законы» - это конечно сильно...

n0mad ★★★
()
Ответ на: комментарий от One

Не взлетит без тормозов оффлоадинга же

llm_load_print_meta: model ftype      = IQ4_XS - 4.25 bpw
llm_load_print_meta: model params     = 70.55 B
llm_load_print_meta: model size       = 35.29 GiB (4.30 BPW)
llm_load_print_meta: general.name     = Models Meta Llama Meta Llama 3.1 70B Instruct
ggml_cuda_init: found 1 CUDA devices:
  Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
llm_load_tensors: offloaded 42/81 layers to GPU
llm_load_tensors:        CPU buffer size = 36139.30 MiB
llm_load_tensors:      CUDA0 buffer size = 18262.12 MiB

Отлично взлетает, 1.5-1.7 t/s инфиренс. Свежие файн-тьюны вроде calme-3.2-instruct-78b-IQ4_XS.gguf 42.6GB тоже взлетают.

sarumeister
()
Ответ на: комментарий от sarumeister

Отлично взлетает, 1.5-1.7 t/s инфиренс.

При теоретическом максимуме в 26,5 если бы было бы 48гб, ну процентов 50-70% утилизация ~ 13-18t/s, значимо шустрее

Так то и у меня на старой встройке 70b = 1.06 tok/sec / 268 tokens / 12.80s to first token, на новой, что только заказана, в раза три побыстрее должно быть. Особого смысла в одном 3090 при этом нет для таких больших моделей.

One ★★★★★
()
Ответ на: комментарий от kirill_rrr

128 Гигабайт, в склейке, как Ultra, получится 256. Впрочем, они уже M5 штампуют.

АМД вообще не считается - они ж покупают всегда поза-предыдущий техпроцесс TSMC за Эпплом, когда тот совсем дешевеет, у них очевидно не получится быть с этим впереди.

Я к тому, что незачем такую печку делать, как человек предлагает, ИИ должны заниматься устройства с правильной для ИИ архитектурой, а не отдельные процессор + видеокарта.

alexmaru
()
Последнее исправление: alexmaru (всего исправлений: 1)
Ответ на: комментарий от alexmaru

ИИ должны заниматься устройства с правильной для ИИ архитектурой, а не отдельные процессор + видеокарта.

Так нету таких! Т.е. есть, но не в таком масштабе. А до отдельных нейрочипов с терабайтом и больше памяти ещё далеко.

kirill_rrr ★★★★★
()
Ответ на: комментарий от kirill_rrr

На кристалле WSE-3 44Гб. К ящику с ним может отдельно добавляться ящик с памятью чуть больше петабайта.
Разместить дома парочку таких вполне реально по месту и потреблению, но конечно дороговато )

GAMer ★★★★★
()
Последнее исправление: GAMer (всего исправлений: 1)

Ну кстати с точки зрения русского языка мелкая модель вполне себе приличная для своего размера.

mike666
()
Ответ на: комментарий от kirill_rrr

М4у не поддерживает столлько памяти даже если она общая. И старший АПУ амд не поддерживает. Пока что только те самые старые зионы над которыми все смеялись.

Можно с этого момента поподробнее. Насколько старые?

Насколько я понимаю, LGA2011-3 всё таки слишком старые, так как для них нет и не будет AVX512 и VNNI. И даже по сравнению с Core-I9 всё раза в три медленей сразу (у Core-I9 и частота повыше). Навскидку у меня так. Какой-то 96-ядерный и 6-канальный рызен оказался не лучше Xeon’а и так же проигрывает Core-I9 (2-канальный). Догадываюсь из-за Numa, не разбирался. На Xeon смотрел perf, там 50% кеш-миссов и вплоть до 0.33 instructions per cycle (ожидалось порядка 2) т.е. задача сильно упирается в память (у Xeon 2 канала и 4 димма). Да VNNI у Core-I9 тоже нет, но AVX512 есть.

Другое дело Xeon Gold в LGA3647, где материнских плат мало и дорогие (сравнивая с LGA2011), да и самих ксеонов поискать надо (за умеренный прайс). Хотя очевидно, они начнут появляться в следующие годы (как раз из-за отсутствия матплат). На LGA3647 шесть каналов, но восемь DIMM, в итоге ассиметричная конфигурация и быстро будут только 4 канала работать. По ощущениям больше 128ГБайт на физический процессор не нужно, даже больше 64ГБайт. Нужно больше процессоров, и как следствие компьютеров. Но если положим нужен террабайт, по 128ГБ на процессор, двухпроцессорные платы, 8 компов == 2.5кВт. Больше в квартире и не включишь. Ну и дорого выходит же. И выйдет несколько хуже видеокарты. Но видеокарт таких вообще нет.

По ссылке что-то такое обещается: https://www.reddit.com/r/LocalLLaMA/comments/1cyzi9e/llamacpp_now_supports_distributed_inference/

Более новые Xeon с AMX (advanced matrix extension) кажется вовсе не по карману, можно забыть. Тем более матплат там вообще нет (доступных для физлица).

PS: да, на старом xeon 70B модель хоть и запускается но уже не юзабельна из-за скорости в 0.33t/s, 30B модель позволяет кое-как пользоваться, но очень медленно.

fk0
()
Последнее исправление: fk0 (всего исправлений: 1)
Ответ на: комментарий от Smacker

Есть агрегаты с 512 Гб оной???

Да, майнинг ферма называется

gffff
()
Ответ на: комментарий от fk0

Можно с этого момента поподробнее. Насколько старые?

Я не разбирался в вопросе подробно, но когда выложили ДипСик поинтересовался можно ли его крутить на зионах с алика, которые любят покупать вместо бюджетных игровых ПК. И полчается что можно если воткнуть эти нужные 700++ Гб оперативки. И я не уверен в оценках производительности, что то говорилось про пару токенов в секнду и вроде как до получаса на запрос.

Мне кажется сама возможность запустить большин модели локально уже здорово. А этот сетевой проект пока ещё запустят, и я при первом взгляде не увидел насколько хорошо или плохо это работает по сети. Всё таки 10Гбит плохая замена оперативке.

kirill_rrr ★★★★★
()
Ответ на: комментарий от Shushundr

По идее с помощью питоновского скрипта (как здесь написано: https://blog.steelph0enix.dev/posts/llama-cpp-guide/#converting-huggingface-model-to-gguf) конвертировать в .gguf формат и можно загружать в llama.cpp

Я попробовал, у меня не получилось. Загружается, но сама llama.cpp неправильно воспринимает разметку (где начинается/заканчивается вопрос-ответ). В итоге оно несет какую-то чушь без остановки и самопроизвольно переключается на русский язык. С другими моделями такой проблемы нет. Что я делаю не так – не понимаю.

fk0
()
Ответ на: комментарий от kirill_rrr

можно ли его крутить на зионах с алика

Можно, но практически бессмысленно. Медленно очень.

Надо искать возможность распараллелить на несколько компов. Нужна быстрая сеть с малой латентностью (Infiniband, PCIe-NTB, может 10Gbit ethernet, может оптика).

Компы эти жрать электричество будут не в себя. В обычной квартире лимит по выделяемому теплу и подводимой мощности. А тут получается частный дом отапливать можно.

Самое дорогое в любом случае – память. Самая доступная – DDR4 на 2400 с алиэкспресса (у ней китайцы могут 3600 в spd вписать, но верить не стоит).

Для сокета LGA2011-3 самый дешевый вариант: RD450X матьплата (их сейчас дешево продают, БУ, 14000), пара ксеонов с большим кешем (по 5000), большой базовой частотой и небольшим числом ядер, память самое дорогое (12000 за 128Гб). Кулера по 3000. Всё это поставить можно в «открытый корпус для ПК EATX», можно найти на озоне за 1500. Шуметь это будет куда меньше БУ сервера, который в квартире держать вообще не получится, как кажется. Матьплата с 10Gbit ethernet, что большой плюс. На матьплате по 4 канала памяти на процессор, 8 диммов, что плюс. Ксеоны будут без AVX512 и без VNNI что гигантский минус.

Покупка такого кажется бессмысленна из-за минусов.

Для процессоров с AVX512 и VNNI нужен LGA4637. А там из матплат только Huananzhi за > 75т.р. На авито их кто-то за 44т.р барыжит (в Китае они 340 долларов где-то). Процессоры будут минимум по 25т.р., если ещё поискать (строго БУ). И кулера по 6т.р. Память та же, 8 DIMM 2400. Быстрая память станет не по карману, а профита от неё будет не намного больше (при промахах скорей важна не скорость линейного чтения, а скорость первой выборки, а тут DDR3 даже выигрывает). И ещё сетевухи покупать и свитч. Серверные матплаты кажется нет смысла рассматривать без сервера, а там шумно и дорого.

Всю память в один комп ставить кажется нет смысла: на однопроцессорной системе всё упрётся даже не в процессор, а в память (тем более с AVX512 + VNNI). Чем больше память, тем менее эффективен кеш процессора. Будет instructions per cycle очень низкий, процессор будет загружен на 100%, но де-факто ничего исполнять не будет, будет ждать готовности памяти. Это даже по-температуре видно. Нагрев не большой, а занятость полная.

Нужно много каналов памяти. Много процессоров. Чтоб получать результат не за 20 минут.

Ещё нюанс, какую память покупать. Если расчитывать на однопроцессорную конфигурацию с четыремя слотами (самый распространённый вариант), то получается нужны модули по 256ГБ. Они очень дорогие. А дешёвые модули по 32ГБ на модуль. Но тогда больше 256ГБ на процессор (512 всего) не поставишь в двухпроцессорной плате имеющей по 8 слотов на процессор. Опять же довод за много-машинную конфигурацию.

Двухпроцессорные системы могут дать не ускорение, а торможение из-за Numa. Там нужно думать как запустить половину вычислений на одном проце и одной памяти, а другую на другой. Кажется, ровно тем же методом, как распределяются вычисления по компам сети. Фактически располовинить единую систему на два компа, каждый на своём процессоре. Экономия тут только на матплате и блоке питания.

Ещё диск, отдельный вопрос. Опять же упирается в сеть. Диск скорей сетевой, NFS. И значит 10ГБит нужно. И на одной отдельной машине нужно иметь приличную дисковую систему. Более-менее пристойный результат с bcachefs где несколько SSD в foreground/cache, и раза в два-четыре больше HDD в background, HDD можно CMR, самые дешевые на рынке в перерасчете за 1ТБ. SDD самсунговские с своей памятью, а не «паленка» которой системная DRAM нужна. Это, кажется, самое дешевое. Но надежность bcachefs под вопросом. У меня несколько раз уже разваливалась. Данные не теряла, но каждый раз начинается, ядро виснет, checkdisk виснет, а не виснет только версия из транка, надо пересобрать и то и другое чтоб только починить файловую систему… Ещё на одной машине со свежим ядром периодически дико тормозить начинает (линукс только на Alt-SysRq реагирует, больше ни на что), и лечение только в bcachefs evacuate данных на НЖМД, отключении и подключении SSD обратно. В общем bcachefs это проблема. Может быть bcache (без fs) и сверху btrfs – лучший выбор.

fk0
()
Ответ на: комментарий от fk0

А почему именно avx512? avx2 в тестах вроде же даёт отставание на процентов 10-20 всего.

Нужно много каналов памяти. Много процессоров. Чтоб получать результат не за 20 минут.

Так там же по 8 каналов на материнку. Больше только у намного более дорогого железа. То что цпу типа занят, но по факту стоит и ждёт, мало греясь это такая багофича что надо ловить момент: поиграть частотами вниз чтобы он ждал потребляя ещё меньше, и пусть работают контроллеры памяти а не ядра.

Там нужно думать как запустить половину вычислений на одном проце и одной памяти, а другую на другой. Кажется, ровно тем же методом, как распределяются вычисления по компам сети

Метод тот же, но физической сети между кластерами не будет. В самом худшем случае - вииртуальная между виртуалками. А вообще, разве этот вопрос не решён в самих нейронках? Их же изначально под серверы и кластеры разрабатывали, а не под сферический 1024-канальный SMT-процессор спетабайтом равноудалённой оперативки. В конце концов несколько видеокарт с отдельными и довольно небольшими видеопамятями это задача посложнее.

Опять же упирается в сеть. Диск скорей сетевой, NFS

Это то зачем? 4 сата-портов или 1 PCIe под плату-расширитель не найдётся? Или я чего то не знаю и модели в процессе работы нужно свопиться десятками терабайт?

Да и собственно 20 минут это вполне приемлимо - я например сейчас решаю задачу найти кнопочный смартфон. Это отсёрфить 2-3 сотни сайтов, 50-100 из них надо прочиать. Вот если бы это могла сделать нейронка... Вручную это часов 16-24. И такие задачи - грепнуть интернет - периодически возникают.

kirill_rrr ★★★★★
()
Последнее исправление: kirill_rrr (всего исправлений: 1)
Ответ на: комментарий от kirill_rrr

Alex Ziskind показывал запуск LLM на нескольких машинах, соединенных в кластер через thunderbolt («Running LLM Clusters on ALL THIS»), а также про кластер mac mini («M4 Mac Mini CLUSTER»). У него же есть интересное видео о небольшой машинке как раз с APU Intel, куда влезает модель 70B («Cheap mini runs a 70B LLM»). Там в биосе указываешь, сколько можно выделить памяти под видеопамять и вперед.

Я так понимаю, можно оба подхода совместить. К тому же на подходе AMD со сходной возможностью выделять кучу оперативки под видеопамять. Летать не будет, но работать будет.

jackill ★★★★★
()
Ответ на: комментарий от jackill

Это как раз с учётом квантования.

Не забыавй что память нужна не только для самой модели, но и для данных из рантайма.

mord0d ★★★★★
()
Ответ на: комментарий от kirill_rrr

М4у не поддерживает столлько памяти даже если она обща

Ну вот выпустили M3 Ultra с 512Гб оперативки, как раз одна большая модель в один маленький мак.

alexmaru
()
Ответ на: комментарий от alexmaru

При пропускной способности памяти в 819GB/s, там все равно нет смысла вертеть что-то больше чем 70B, ну скудно и 120B, а это значит, что все что выше 128гб памяти избыточно

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)
Ответ на: комментарий от One

там все равно нет смысла вертеть что-то больше

Так скоро увидим. Оно всё же немного компенсируется тем, что это общая память без копирования между RAM <-> VRAM. Если оно будет делать около сотни токенов в секунду, то этого сразу достаточно для разработчика этих самых моделей.

PS: максимальная нагрузка 480 W. Это намного лучше, чем пачка Nvidia видеокарт.

alexmaru
()
Последнее исправление: alexmaru (всего исправлений: 1)
Ответ на: комментарий от alexmaru

В реддит уже прикинули, что это Meta-Llama 3.1 405B Q3_K_S, теоретически до 5 t/s, скромно за 10 тыс долларов, сколько можно онлайн купить при этом - часто в разы эффективнее

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)
Ответ на: комментарий от One

но это всё ещё будет жрать где-то 200-300 (там очевидно не всё под 100% будет нагружено, 100 ватт там ещё на перефирию точно выделено).

в другом треде предположили, что так можно использовать средние модели но с выкрученным повыше контекстным окном.

Можно будет поставить как локальный AI помошник для тех, кто боится утечек кода или данных на сторону (знаю таких).

да и условный m5 или m7 ultra уже точно смогут гонять это всё значительно быстрее.

alexmaru
()
Последнее исправление: alexmaru (всего исправлений: 1)
Ответ на: комментарий от alexmaru

это всё значительно быстрее.

Быстрее то не будет. Unified memory всего лишь подготовку модели ускоряет. А так пропускной способностью памяти сильно ограничено.

Вон даже gtx 5090 имеет лишь 1792gb/s, то есть в каком-нибудь дипсик при 700+гб видеопамяти на борту имел бы лишь 2,5t/s

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)
Ответ на: комментарий от alexmaru

Я же выше пишу, что это MoEs, где модель в 671B делится на 128 (допустим) экспертов, и она и активирует только 2–4 эксперта на токен, то на каждом шаге обрабатывается лишь ~1–3% параметров (например, 20B из 671B). Это радикально снижает объём данных, передаваемых через память, поэтому и теоретическая скорость в 819.3 GB/s делить не на 335.5 GB = 2.5t/s, а на 20B = 40t/s

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)
Ответ на: комментарий от kirill_rrr

Зионы же не apu. А так threadripper можно, он поддерживает.

Shadow ★★★★★
()
Ответ на: комментарий от kirill_rrr

что то говорилось про пару токенов в секнду и вроде как до получаса на запрос.

Даже не пара, а токен в секунду

https://habr.com/ru/articles/879846/

Отчёт о запуске DeepSeek-R1 на Xeon 6132 c 768 ГБ памяти

Память там DDR4

В комментариях приводят примеры, что на более свежих opteron-ах с DDR5 получают 4-5 токенов в секунду.

greenman ★★★★★
()
Ответ на: комментарий от greenman

А что, весело. Не факт что я бы программировал лучше и быстрее. Дмаю даже в таком виде делая что то можно скидывать какие то подзадачи или вопросы на нейронку.

kirill_rrr ★★★★★
()
Ответ на: комментарий от kirill_rrr

А что, весело. Не факт что я бы программировал лучше и быстрее. Дмаю даже в таком виде делая что то можно скидывать какие то подзадачи или вопросы на нейронку.

пожалуйста, не програмировай

Nohack
()
Ответ на: комментарий от Nohack

У мегня точно такое же пожелание к гуглу, рэдхату, мэйл.ру/ВК, сберу и яндексу. Но что то они не собираются останавливаться.

kirill_rrr ★★★★★
()

Старшая модель YandexGPT 5 доступна в Алисе

А как её подключить?

ya-betmen ★★★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.