Китайская компания DeepSeek выложила в открытый доступ свои модели искусственного интеллекта, включая DeepSeek-R1 и DeepSeek-R1-Zero, что уже вызвало падение акций OpenAI на американском фондовом рынке.
DeepSeek (深度求索) — это китайский стартап, основанный тремя сотрудниками Чжэцзянского университета из Ханчжоу. Проект был создан в 2023 году и за короткий период смог стать достойной альтернативой ChatGPT. У проекта есть веб-версия, официально доступная в том числе из России, в отличие от западных аналогов.
Проект привлек внимание на Западе после новости о том, что китайская компания открыла доступ к своим языковым моделям, которые демонстрируют если не превосходство, то паритет с американскими аналогами.
DeepSeek-R1-Zero и DeepSeek-R1 обучены на основе модели DeepSeek-V3-Base. Они содержат 671 миллиард параметров.
Также для скачивания доступны облегченные модели, которые представляют собой другие опенсорсные проекты, дополнительно дообученные с использованием данных, сгенерированных DeepSeek-R1. В частности, использовались модели Qwen и Llama. Они легко справляются с задачами в области программирования и решением математических задач, при этом не являясь требовательными к ресурсам GPU.