Как вычислить расстояние между строками (степень схожести)

1

3

Например есть задача нахождения наиболее похожей строки в массиве известных.

Для «устаканивания» понятий: строка здесь — цепочка utf-8 символов конечной длинны. Массив известных строк — некая итерируемая коллекция (возможно неограниченного размера).

Возникают вопросы:

Какими критериями пользоваться для вычисления расстояния между искаемой и исходными строками?
Какую структуру данных для коллекции лучше всего выбрать?
Существуют ли готовые алгоритмы для этого?

Язык реализации — не существенен.

Ссылка

←	Автодополнение в Bash как в Zsh

Как узнать pid родительского процесса по pid дочернего ?

→

Примеры:

есть сайт с глобальным поиском. Поиск должен индексировать любые сущности сайта.
есть блокнот, в открытых файлах надо найти похожую последовательность символов.

KennyMinigun ★★★★★
(29.11.13 18:55:13 MSK) автор топика
Последнее исправление: KennyMinigun 29.11.13 18:57:19 MSK (всего исправлений: 1)

http://ru.wikipedia.org/wiki/Расстояние_Левенштейна

buddhist ★★★★★
(29.11.13 19:02:05 MSK)

http://ru.wikibooks.org/wiki/Расстояние_Левенштейна

dimderbin ★
(29.11.13 19:15:09 MSK)

Ссылка

Ответ на: комментарий от buddhist 29.11.13 19:02:05 MSK

Круто, спасибо Вам buddhist, dimderbin.

KennyMinigun ★★★★★
(29.11.13 20:36:19 MSK) автор топика

Ответ на: комментарий от KennyMinigun 29.11.13 20:36:19 MSK

Для английского языка есть еще такой забавный костыль как soundex

buddhist ★★★★★
(29.11.13 23:12:41 MSK)

Ссылка

Ответ на: комментарий от KennyMinigun 29.11.13 18:55:13 MSK

Тока, эта, работать с UTF-8 в этом контексте не очень здорово.

Вообще, недавно набрёл вот на какую штуку по этой теме: http://blog.notdot.net/2010/07/Damn-Cool-Algorithms-Levenshtein-Automata

Однако, нужно помнить, что расстояние Левенштейна - это не совсем то, чего ждут от Вас Ваши пользователи. Тут ниже уже посоветовали soundex, а вообще для русскоязычных (иначе - зачем UTF-8? :) ) сайтов характерен другой набор пользовательских ошибок при наборе, чем тот, который описывается «классической» дистанцией Левенштейна. Например, набор фраз в неверной раскладке или ещё какая бНОПНЯ - ДЛ тут совсем не при делах :)

AlexM ★★★★★
(30.11.13 01:04:41 MSK)