Хочется автоматически ограничить всякие кросс-постинги. А для этого надо как-то быстро проверять что аналогичные тексты уже постились.
То что можно посчитать md5 текста я догадался, но он слетает от любой запятой. Наверняка уже есть готовые наработки, как нормализовать, как бить тексты на фрагменты и как делать поиск по большому количеству сверток.
Где посмотреть готовые алгоритмы на эту тему? Еще интересно то же самое, но для картинок.