LINUX.ORG.RU

Как автоматизированно расклассифицировать тексты?

 ,


0

1

В интернетах иногда встречаются свалки текcтов книг. Так, владелец одной из таких свалок утверждает, что в ней 700 тысяч неповторяющихся текстов.

Совершенно очевидно, что 80% этих текстов, это бред идиотов про несуществующие сущности (эльфов, вампиров, НЛО, шаровые молнии и высадку на луну). Я наверняка в этом уверен, так как сам из ЭТИХ.

Вопрос - каким образом автоматизированно составить каталог, которым можно было бы в последствии пользоваться для поиска книг? Автоматизированное составление нужно так как иначе «это большая работа».

★★☆

Последнее исправление: Einstok_Fair (всего исправлений: 1)

так как сам из ЭТИХ

Кого? Идиотов?

Zhbert ★★★★★
()

Вопрос - каким образом автоматизированно составить каталог, которым можно было бы в последствии пользоваться для поиска книг? Автоматизированное составление нужно так как иначе «это большая работа».

Каталог какого плана? Ты хоть вопросы задавать научись более конкретно.

Zhbert ★★★★★
()
Ответ на: комментарий от Zhbert

какая свалка, такие вопросы. Во-первых, хотелось бы как-то разделить книги по тематикам. Во-вторых, определить коэффициент «мусорности» книги. Чтобы сразу увидеть те 20% на которые хотя бы имеет смысл обращать внимание.

Einstok_Fair ★★☆
() автор топика
Ответ на: комментарий от Einstok_Fair

разделить книги по тематикам

И кто тебе будет по текстам на тематики делить? ИИ?

определить коэффициент «мусорности» книги

Вопрос тот же. Как его определять?

Zhbert ★★★★★
()
Ответ на: комментарий от Zhbert

И кто тебе будет по текстам на тематики делить? ИИ?

XXI век же на дворе. Целая куча систем классификации текстов. Только обучать поначалу придётся самому и нужен механизм быстрого удобного подтверждения/исправления на начальной стадии обучения.

Готовых решений таких не знаю, но самому написать относительно не сложно.

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

XXI век же на дворе.

тут не надо путать. Это в США 21-ый век, а у нас тут Россия и соответствующий уровень развития.

Einstok_Fair ★★☆
() автор топика
Ответ на: комментарий от Einstok_Fair

Это в США 21-ый век, а у нас тут Россия

Я как-то по старой привычке думал, что у нас тут Интернет, а не США или Россия…

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

важно не только пространство идей, но и материальная база. Почему таких классификаторов ещё не позапускали сотнями? Потому что железо дорогое. А у них дешевле и поэтому с публичными библиотеками гораздо лучше.

Einstok_Fair ★★☆
() автор топика
Ответ на: комментарий от Einstok_Fair

Почему таких классификаторов ещё не позапускали сотнями? Потому что железо дорогое.

При чём тут цена железа? Я говорю не об облачных решениях, а о персональных. Что-то типа https://github.com/php-ai/php-ml

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

Целая куча систем классификации текстов.

и ниодна из них не универсальна, а узко невероятно узко направлена

Только обучать поначалу придётся самому и нужен механизм быстрого удобного подтверждения/исправления на начальной стадии обучения.

))))))))))))

Готовых решений таких не знаю, но самому написать относительно не сложно.

))))))))))))))))))))))))))))))0000000000000

за 60 лет так и написали, но «написать не сложно»

держи в курсе

missxu
()
Ответ на: комментарий от Einstok_Fair

Почему таких классификаторов ещё не позапускали сотнями? Потому что железо дорогое. А у них дешевле и поэтому с публичными библиотеками гораздо лучше.

https://www.youtube.com/watch?v=OOT3UIXZztE

2 кадра в секунду для 1080p картинки на топовом corei7 и нвидиа 1080ти

Почему таких классификаторов ещё не позапускали сотнями?

погрешность за день будет под 50%
рабы работают дешевле и надежнее
простейшие алгоритмы выделения регионов на 100-200 строк кода работают с 0% ошибок

missxu
()
Ответ на: комментарий от missxu

за 60 лет так и написали, но «написать не сложно»

Про 60 лет на скажу, но лет на 10 ты точно отстал. Потому что сегодня это реально банальность, которую каждый под себя делает.

KRoN73 ★★★★★
()
Ответ на: комментарий от missxu

В интернетах иногда встречаются свалки текcтов книг.
2 кадра в секунду для 1080p картинки

Тот случай, когда тупые алгоритмы классифицируют текст лучше высокомерных невежд :)

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

хоть 1 рабоций вариант покажешь?

на гитхабе 1 универсальный проект обучаемый, и куча специфичных под чтото очень узкое

missxu
()
Ответ на: комментарий от missxu

хоть 1 рабоций вариант покажешь?

Как автоматизированно расклассифицировать тексты? (комментарий)

и куча специфичных под чтото очень узкое

Я сразу и сказал, что писать под себя придётся. Как обычно и делается.

Нужны персональные истории успеха — на Хабр за этим. Там регулярно делятся.



Кстати, к вопросу о классификаторах — почти у каждого уважающего себя содержателя почтового сервера стоит spamassasin или аналог, который обладает наивным байесовским классификатором. И ни у кого даже вопросов не возникает, работает ли оно :)

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

Кстати, к вопросу о классификаторах — почти у каждого уважающего себя содержателя почтового сервера стоит spamassasin или аналог, который обладает наивным байесовским классификатором. И ни у кого даже вопросов не возникает, работает ли оно :)

отсортировать письма размером 600 страниц и 2 строки каждое - в корнераные задачи, тыж не собрался по двум словам все 600 страницные книги сортировать?

составить миллионы шаблонов «предложения» для сортировки-это годы работы

missxu
()

Без проблем. Берёшь что-нибудь типа doc2vec и годами обучаешь вручную (смех в зале).

В этом вся засада, решения есть, но сами они не обучаются.

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.