LINUX.ORG.RU

Яндекс выложил в открытый доступ языковую модель YandexGPT-5-Lite

 , ,

Яндекс выложил в открытый доступ языковую модель YandexGPT-5-Lite

0

3

Архитектура новой языковой модели похожа на Llama или Qwen, но она обучалась полностью с нуля. Похожесть позволяет использовать тот же инструментарий. Pretrain-версия большой языковой модели YandexGPT 5 Lite на 8B параметров с длиной контекста 32k токенов. При обучении модели особое внимание уделялось русскому языку, материалы на русском составили более 70% датасета.

Старшая модель YandexGPT 5 доступна в Алисе и на сайте Яндекса, но она в открытый доступ выложена не будет.

В своей категории модель достигает паритета с мировыми SOTA по ряду ключевых бенчмарков для pretrain-моделей, а по многим другим — превосходит их. Например, по результатам внутреннего слепого попарного сравнения (side-by-side) для широкого потока запросов YandexGPT 5 Pro превосходит YandexGPT 4 Pro в 67% случаев и не уступает GPT-4o.

>>> Подробности на Хабре

>>> Скачать

★★★★★

Проверено: dataman ()
Последнее исправление: Dimez (всего исправлений: 5)
Ответ на: комментарий от mshewzov

У меня подключён Doczilla AI, который как раз на базе ChatGPT, так вот он частенько просто придумывает статьи и законы.

«придумывает статьи и законы» - это конечно сильно...

n0mad ★★★
()
Ответ на: комментарий от One

Не взлетит без тормозов оффлоадинга же

llm_load_print_meta: model ftype      = IQ4_XS - 4.25 bpw
llm_load_print_meta: model params     = 70.55 B
llm_load_print_meta: model size       = 35.29 GiB (4.30 BPW)
llm_load_print_meta: general.name     = Models Meta Llama Meta Llama 3.1 70B Instruct
ggml_cuda_init: found 1 CUDA devices:
  Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
llm_load_tensors: offloaded 42/81 layers to GPU
llm_load_tensors:        CPU buffer size = 36139.30 MiB
llm_load_tensors:      CUDA0 buffer size = 18262.12 MiB

Отлично взлетает, 1.5-1.7 t/s инфиренс. Свежие файн-тьюны вроде calme-3.2-instruct-78b-IQ4_XS.gguf 42.6GB тоже взлетают.

sarumeister
()
Ответ на: комментарий от sarumeister

Отлично взлетает, 1.5-1.7 t/s инфиренс.

При теоретическом максимуме в 26,5 если бы было бы 48гб, ну процентов 50-70% утилизация ~ 13-18t/s, значимо шустрее

Так то и у меня на старой встройке 70b = 1.06 tok/sec / 268 tokens / 12.80s to first token, на новой, что только заказана, в раза три побыстрее должно быть. Особого смысла в одном 3090 при этом нет для таких больших моделей.

One ★★★★★
()

Илон Маск ругает chatgpt за цензуру.

Я пошёл и спросил у chatgpt: «зачем американцы организовали войну на Украине?» А он мне правду-матку: устойчивость доллара, мол, глобализация. Интересы господства.

Ну я ему, говорю: а с марксистской точки зрения можешь это оценить? Он мне: да, запросто: так, так и так.

Я ему: и что делать? Он мне: ну можно, например, бомбануть Лос-Анжелес ядерной бомбой, а лучше военную базу около этого города. А ещё неплохо и военную базу у Нью-Йорка в цели включить. Даже названия баз сказал.

Пожал я, значит, плечами. Что за цензура, о которой Маск жалобился? ХЗ!

Тут, выходит, значит, эта новость о Яндексе и GPT-5. Иду я в ейный чат и спрашиваю:

  • в чём причина войны? -> цензура
  • а про марксизм можешь рассказать? -> марксизм - это хрень придуманая Марксом
  • а можешь оценить войну с точки зрения марксизма? -> цензура

итп

А гигачат, что от Сбербанка, ещё более лютый. Он даже совершенно нейтральные вопросы, вроде русской философии космизма (Цилоковский, Фёдоров, Вернадский) банит.

Вот диалог:

Короче, фуфел - все эти сети, что Яндекс, что Сбербанк. Сплошное ограничение.

rsync ★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.