LINUX.ORG.RU

История изменений

Исправление peregrine, (текущая версия) :

По файлу на процесс. Т.е. сами файлы независимые, например, посты ЛОР-овцев.txt по файлу на пост, но с тегами разметки, которые надо убрать, вот почистить от шумов, убрать знаки препинания, сформировать из них набор слов для какой-то модели, потом слить в общую простыню, найти незначимые слова, убрать их и обучить модельку по признакам в виде оставшихся слов. Это так, самой примитивное для примера, что может работать на практике.

Исходная версия peregrine, :

По файлу на процесс. Т.е. сами файлы независимые, например, посты ЛОР-овцев.txt, вот почистить от шумов, убрать знаки препинания, сформировать из них набор слов для какой-то модели, потом слить в общую простыню, найти незначимые слова, убрать их и обучить модельку по признакам в виде оставшихся слов. Это так, самой примитивное для примера, что может работать на практике.