Имеется несколько тысяч файлов. Названия отражают содержимое и происхождение файла. Например: название книги, номер страницы, кто сканировал, откуда скачано, к какой дате приурочена выкладка, и т.п. Формат произвольный.
Требуется разбить их на группы, выделив общие для большого числа файлов названия книг. Как это автоматизировать?
Если просто перебирать подстроки для каждой строки в списке и сравнивать каждую со всем списком и со списком найденных, получается слишком долго. Как сделать быстро?