ну собственно хайповый вопрос. Хочу попробовать на своем массиве текстовых данных из своей предметной области (на русском языке в основном) произвести добучение сети, чтоб посмотреть насколько оно жизнеспособно.
Из поиска понял что из самых простых моделей это - LLaMA and Alpaca. Легко разворачиваются локально.
Но вопрос с обучением на своих массивах данных.
В просторах ютуба есть инструкции по дообучению по формату. https://www.youtube.com/watch?v=ivXcInXR5jo
{ «id»: «new_seed_task_4», «name»: «refund_policy_explanation», «instruction»: «Can you explain your refund policy?», «instances»: [{«input»: "", «output»: «Our refund policy allows customers to request a refund within 30 days of purchase if they are unsatisfied with the product or service. To be eligible for a refund, the product must be in its original condition and packaging, and services must not have been completed.»}], «is_classification»: false }
Т.е. тут очень четкие примеры для доубучения. Плюс не совсем понятно какие слои обучаются а какие заморожены в данном виде.
Есть ли иные способы научить ту же LaMA and Alpaca на просто большом наборе данных текста, чтоб она сама что называется поучилась. Без конкретной заточки под вопросы.
И есть ли вообще живые альтернативы LaMA and Alpaca?
Как с великим и могущественным)