LINUX.ORG.RU

Самообучающаяся сортировка файлов

 , , , самообучающиеся алгоритмы


1

4

Задумал сделать утилитку для автоматической сортировки и фильтрации файлов. Файлы - RSS-записи, выгружаются автоматически, иногда до нескольких сотен за день доходит. Вручную отбирать интересное надоело.

Что почитать по этой теме? Последний раз нейронными сетями интересовался в универе много лет назад, ничего не помню уже.

Какие есть библиотеки для быстрой реализации обучения с учителем на python или c++? Может быть, есть уже готовые программы, которые можно легко прикрутить?

★★★

RSS-записи, выгружаются автоматически, иногда до нескольких сотен за день доходит.

Просто не читай желтую прессу.

anonymous
()
Ответ на: комментарий от k0valenk0_igor

У меня в универе начался курс по нейронным сетям и хочу поделиться информацией с вами, заодно и сам буду лучше воспринимать информацию, а значит выигравшими будут все. Поехали.

Спасибо за пример. Вот такой третьесортный шлак просто читать не надо, и никакого завала не будет.

anonymous
()
Ответ на: комментарий от anonymous

На самом деле, там в начале статьи приведен список литературы. Собсно, только он и ценен))

k0valenk0_igor ★★★
()

Да-да, лучшие умы бьются на моделью пользователя, а тут приходит д'Артаньян и хочет слабать на коленке за один вечер.

anonymous
()

А как ты это себе представляешь? Ты скармливаешь нейросети просто текст и пометку понравилось/не понравилось, а она потом такая умнеет, самообучается и дальше все понимает? Прикольно.

Ты бы сделал для начала какую-то ручную классификацию, например количество слов в статье, источник статьи, частота букв/слов и посмотрел. Может у тебя критерии незатейливые, всплыла бы какая-то явная закономерность

anonymous
()

Нейронные сети - это такая чёрная магия. Для классификации (тебе ведь не кластеризация нужна?) есть более формальные методы, knn например, или NB.

yoghurt ★★★★★
()
Ответ на: комментарий от anonymous

Ты скармливаешь нейросети просто текст и пометку понравилось/не понравилось, а она потом такая умнеет, самообучается и дальше все понимает?

Классная идея. А может так можно научить компьютер смешные анекдоты отбирать? :-)

monk ★★★★★
()

dave, yoghurt, invy

Спасибо :) Нагуглил по вашим комментам NLTK и scikit-learn для python, как раз то, что хотел. Буду разбираться.

schizoid ★★★
() автор топика
Ответ на: комментарий от invy

Модераторов, ведущих себя как боты, и так полно.

schizoid ★★★
() автор топика

Нейронные сети - это точно не по этой теме.
Придумай свою разделяющую функцию и решающее правило. У меня сходу есть решение с байесом. Правда вероятно тебе понадобится хороший stemmer - таких уже 100500 уже написано.

nerdogeek
()

Вы тут допишитесь самообучающихся программ. Терминатор ничему не научил?

anonymous
()
Ответ на: комментарий от anonymous

Да-да, лучшие умы бьются на моделью пользователя, а тут приходит д'Артаньян и хочет слабать на коленке за один вечер.

Неправда!

d_Artagnan ★★
()
Ответ на: комментарий от schizoid

Если это кому-то интересно вдруг

Да, штука действительно пригодилась, пусть это и самописный Байес (через NLTK и scikit-learn, думаю, было бы кошернее).

Но и в текущем костыльном состоянии мои нужды покрывает полностью. За неделю по рассылкам набралась достаточная выборка для обучения, чтобы ~90% угадывать правильно.

Единственное замечание: по умолчанию в штуке токенайзер установлен в разбиение по n-граммам. Результаты выдаёт крайне негодные; непонятно, почему автор решил его включить. Но в комплекте идёт ещё токенайзер по словам (в оригинале было \S+, т.е. по разделителю-пробелу бьёт, я заменил на \w+ - по словам, в моём случае больше подходит). Для русских слов работает кривовато - падежи, склонения etc; но этим займусь потом как-нибудь, в принципе, и в таком состоянии неплохие результаты.

schizoid ★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.