Исследователи из Научно-технологического университета имени короля Абдаллы опубликовали на github MiniGPT-4 — языковую модель, предназначенную для улучшения понимания языка посредством зрения.
MiniGPT-4 использует предварительно обученный компонент зрения BLIP-2, к которому добавлен один проекционный слой для согласования закодированных визуальных функций с языковой моделью Vicuna путем замораживания всех других компонентов зрения и языка. Тренировочный процесс состоит из двух этапов. На первом этапе модель предварительно обучается с использованием примерно 5 миллионов выровненных пар изображение-текст за 10 часов с использованием 4 графических процессоров A100. После этого этапа Vicuna может понимать изображения, но ее способность генерировать сильно снижается.
Чтобы решить эту проблему и повысить удобство использования, исследователи нашли новый способ создания высококачественных пар изображение-текст, используя вместе саму модель и ChatGPT. Затем они создали небольшой, но качественный набор данных, содержащий 3500 пар. На втором этапе модель обучается на этом наборе данных, что значительно повышает качество генерации и общее удобство использования. Этот этап эффективен в вычислительном отношении и занимает всего около 7 минут с одним графическим процессором A100.
Исследователи предоставили онлайн-демонстрацию и инструкции по установке, локальному запуску демоверсии и обучению модели.
Распространяется по лицензии BSD 3-Clause License.
>>> Подробности