Доброго вам времени суток:)
Задача:
Для своей лисапедной CAT-тулзы (если кто не знает, что это, то вот - http://www.gigatran.ru/translation-memory) нужно запилить поиск. Т.е. есть большая база с записями вида:
предложение на исходном языке : предложение на языке перевода
И вот по этой базе нужно искать варианты предложений на исходном языке наиболее схожие с тем предложением, которое нужно перевести, и выводить варианты перевода этих предложений.
Вопрос:
Подойдут ли для подобной задачи системы поиска, типа Sphinx или Lucene, или лучше заморочиться с собственным двухколёсным, использующего что-нибудь вроде алгоритма шинглов?