алгоритмЫ сопоставления наборов строк

0

1

есть два множества строчек, A и B, например:

A = Москва, Санкт-Петербург, Россия

B = Страна Россия, город Санкт-Петербург, Москвва

Строчки из двух множеств соответствуют друг другу («похожи») один-в-один. Какие есть алгоритмы, чтобы найти это соответствие?

На ум пока приходят проверки орфографий итп, но неясно, как с их помощью сопоставить, скажем, «городок Санкт-Петербург» и «городишко Петербург». А также не будет учтен тот факт, что соответствие 1-1

UPD может, есть какая программулька для подобной задачи

Ссылка

←	Помогите решить задачу на Assembler

Идея криптовалюты добра

→

http://en.wikipedia.org/wiki/Normalized_Google_distance

по-моему то что надо =)

pousqie
(25.12.13 07:10:50 MSK)

Ответ на: комментарий от pousqie 25.12.13 07:10:50 MSK

хм. это надо гугл спрашивать будет, какие слова похожи?)

... или самому стать гуглом^W^W написать url-бродилку

MyTrooName ★★★★★
(25.12.13 07:15:13 MSK) автор топика
Последнее исправление: MyTrooName 25.12.13 07:16:18 MSK (всего исправлений: 1)

Ответ на: комментарий от MyTrooName 25.12.13 07:15:13 MSK

ну, никто лучше гугла не знает какие слова похожи а какие нет, по крайней мере не умеет делать это автоматически. Похожие по написанию слова можно найти посчитав какое-нибудь расстояние хемминга. Думаю, можно даже достаточно надежно найти похожие по звучанию слова, взяв какой-нибудь аналог SOUNDEX для русского языка. А вот насколько сочетания слов похожи по смыслу лучше спросить у гугла, он же заодно и орфографию поправит, и всё что надо сделает.

pousqie
(25.12.13 07:28:39 MSK)

Ответ на: комментарий от pousqie 25.12.13 07:28:39 MSK

расстояние хемминга

создал тред, чтобы вспомнить, как оно называется. спасибо)

MyTrooName ★★★★★
(25.12.13 07:30:02 MSK) автор топика

Ответ на: комментарий от MyTrooName 25.12.13 07:30:02 MSK

для сравнения печатных слов называется расстоянием Левенштейна. не за что.

pousqie
(25.12.13 07:33:28 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Помогите решить задачу на Assembler

Development

Идея криптовалюты добра

→

Похожие темы