Как детектить «похожие тексты»?

поиск повторов

1

1

Хочется автоматически ограничить всякие кросс-постинги. А для этого надо как-то быстро проверять что аналогичные тексты уже постились.

То что можно посчитать md5 текста я догадался, но он слетает от любой запятой. Наверняка уже есть готовые наработки, как нормализовать, как бить тексты на фрагменты и как делать поиск по большому количеству сверток.

Где посмотреть готовые алгоритмы на эту тему? Еще интересно то же самое, но для картинок.

Ссылка

←	Посоветуйте сайты

Зачем может понадобиться «file namespace»?

→

← 1 2 →

Ответ на: комментарий от hobbit 21.02.22 09:04:37 MSK

когда словосочетание «забанься, дебил» начали целенаправленно искать, стал писать «за6анься, дебiл».

Sorry, ностальжи.

Когда был молодым …
Вообщем было два шкафа подшивок отчетов по ОС, в которых вручную рассчитывали амортизацию, …
Предложил им - «Давайте эти два шкафа введу в компьютер в АРМ ОС».

Как решил вопрос и быстро ввел данные?

Разработал хороший алгоритм нечеткого поиска.
Ввожу: Рбл хрй агм нчго пка", а он мне возвращает - «Разработал хороший алгоритм нечеткого поиска».

Так что «забанься, дебил», «за6анься, дебiл», это вовсе не главная проблема …

Владимир

anonymous
(21.02.22 20:37:28 MSK)

Ссылка

Про разные сервисы уже говорили? У них у большинства есть свои API для проверки текстов. Но бесплатных не встречал. Типа text ru или content-watch. Может еще какие есть.

ilinsky ★★★★★
(21.02.22 20:37:45 MSK)