История изменений
Исправление Obezyan, (текущая версия) :
Я не про датасеты, а про исходные данные для создания датасетов и потом тренировки ANN и получения модели в виде коэффициэнтов ANN.
Исходные данные для сети и есть датасет, его можно использовать и получить те же результаты, он открыт для просмотра и изменения, там тупо текст в определённом формате.
Собирают такие датасеты обычно (для instruct сетей) из стековерфлоу, википедии и реп на гитхабе, их тупо парсят, удаляют дубли, ищут скриптами текст лицензии и если не свободная - удаляют, если файл лицензии не найден то считается что свободное использование. Обычно либо в датасете пишут как его собирали либо в описании самой сети на HF.
Конкретного списка реп нет даже у создателей сети тк данные обрабатывались скриптами, а не вручную. Есть итоговый датасет, его можно скачать и обучить на нем получив тот же результат, т.е. ваша претензия не имеет смысла. Весь гитхаб вы не распарсите также чтобы получить тот же датасет.
Исходная версия Obezyan, :
Я не про датасеты, а про исходные данные для создания датасетов и потом тренировки ANN и получения модели в виде коэффициэнтов ANN.
Исходные данные для сети и есть датасеты, его можно использовать и получить те же результаты, он открыт для просмотра и изменения, там тупо текст в определённом формате.
Собирают такие датасеты обычно (для instruct сетей) из стековерфлоу, википедии и реп на гитхабе, их тупо парсят, удаляют дубли, ищут скриптами текст лицензии и если не свободная - удаляют, если файл лицензии не найден то считается что свободное использование. Обычно либо в датасете пишут как его собирали либо в описании самой сети на HF.
Конкретного списка реп нет даже у создателей сети тк данные обрабатывались скриптами, а не вручную. Есть итоговый датасеты, его можно скачать и обучить на нем получив тот же результат, ваша претензия не имеет смысла. Весь гитхаб вы не распарсите также чтобы получить тот же датасеты.