LINUX.ORG.RU

Поиск похожих текстовых файлов

 ,


1

2

Здравствуйте товарищи!

Мучил-мучил гугл, ничего не вымучил, а может запрос пишу не верно, в общем, прошу помощи!

Задача:

Есть папка, в ней лежит большое количество (несколько тысяч) текстовых файлов в формате TXT.

Необходимо найти среди них похожие. Не идентичные, а именно похожие. Если программа при этом покажет, насколько совпадают найденные похожие файлы - будет вообще прекрасно.

Пробовал dupeGuru - идентичные находит, похожие нет.

Наличие гуи не принципиально. Посоветуйте какой-гнибудь софт, или хотя бы в какую сторону копать. Буду очень признателен!

Не идентичные, а именно похожие.

Пока не формализован критерий похожести никакие программы поиска тебя не поймут.

Для начала можешь попробовать представить текстовые файлы как абстрактные данные для корреляционного анализа ©, где похожесть — коэффициент корреляции.

хотя бы в какую сторону копать

Некоторые программы контент-анализа © умеют обнаруживать схожие отрывки текста.

quickquest ★★★★★
()

Какой у тебя критерий похожести?
Например: в файлах по 10 и 11 строк каждый, совпало 10 строк - они похожи. А совпало меньше 5 строк - непохожи. Если такая оценка похожести тебя устраивает, то ты искал утилиты sort, comm и простейшую арифметику.

bass ★★★★★
()
Ответ на: комментарий от quickquest

Спасибо за наводку, буду копаться в заданном направлении :)

Gururum
() автор топика
Ответ на: комментарий от bass

Я думаю не совсем так, но в целом похоже. Файлы все разные, но если совпало некоторое количество слов или символов подряд - они похожи. А может быть и строк.

С количеством этих слов \ символов \ строк придется экспериментировать, безусловно, для того, чтобы достичь приемлемого результата.

За наводку на утилиты спасибо!

Gururum
() автор топика
Ответ на: комментарий от Vinni_Pooh

Именно. В этом направлении и нашел решение - программа «ETXT Антиплагиат» умеет решать поставленную задачу.

Gururum
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.