LINUX.ORG.RU

Как детектить «похожие тексты»?

 поиск повторов


1

1

Хочется автоматически ограничить всякие кросс-постинги. А для этого надо как-то быстро проверять что аналогичные тексты уже постились.

То что можно посчитать md5 текста я догадался, но он слетает от любой запятой. Наверняка уже есть готовые наработки, как нормализовать, как бить тексты на фрагменты и как делать поиск по большому количеству сверток.

Где посмотреть готовые алгоритмы на эту тему? Еще интересно то же самое, но для картинок.

★★★★★
Ответ на: комментарий от hobbit

когда словосочетание «забанься, дебил» начали целенаправленно искать, стал писать «за6анься, дебiл».

Sorry, ностальжи.

Когда был молодым …
Вообщем было два шкафа подшивок отчетов по ОС, в которых вручную рассчитывали амортизацию, …
Предложил им - «Давайте эти два шкафа введу в компьютер в АРМ ОС».

Как решил вопрос и быстро ввел данные?

Разработал хороший алгоритм нечеткого поиска.
Ввожу: Рбл хрй агм нчго пка", а он мне возвращает - «Разработал хороший алгоритм нечеткого поиска».

Так что «забанься, дебил», «за6анься, дебiл», это вовсе не главная проблема …

Владимир

anonymous
()

Про разные сервисы уже говорили? У них у большинства есть свои API для проверки текстов. Но бесплатных не встречал. Типа text ru или content-watch. Может еще какие есть.

ilinsky ★★★★★
()
Ответ на: комментарий от firkax

Он четко описал задачу:

надо как-то быстро проверять что аналогичные тексты уже постились.

anonymous
()
Ответ на: комментарий от anonymous

Ладно, видимо и правда можно было догадаться. Но написано не очень хорошо. И догадаться не из того что ты процитировал, а из предложения считать md5.

firkax ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.