LINUX.ORG.RU

алгоритмЫ сопоставления наборов строк

 


0

1

есть два множества строчек, A и B, например:

A = Москва, Санкт-Петербург, Россия

B = Страна Россия, город Санкт-Петербург, Москвва

Строчки из двух множеств соответствуют друг другу («похожи») один-в-один. Какие есть алгоритмы, чтобы найти это соответствие?

На ум пока приходят проверки орфографий итп, но неясно, как с их помощью сопоставить, скажем, «городок Санкт-Петербург» и «городишко Петербург». А также не будет учтен тот факт, что соответствие 1-1

UPD может, есть какая программулька для подобной задачи

★★★★★

Последнее исправление: MyTrooName (всего исправлений: 3)
Ответ на: комментарий от pousqie

хм. это надо гугл спрашивать будет, какие слова похожи?)

... или самому стать гуглом^W^W написать url-бродилку

MyTrooName ★★★★★
() автор топика
Последнее исправление: MyTrooName (всего исправлений: 1)
Ответ на: комментарий от MyTrooName

ну, никто лучше гугла не знает какие слова похожи а какие нет, по крайней мере не умеет делать это автоматически. Похожие по написанию слова можно найти посчитав какое-нибудь расстояние хемминга. Думаю, можно даже достаточно надежно найти похожие по звучанию слова, взяв какой-нибудь аналог SOUNDEX для русского языка. А вот насколько сочетания слов похожи по смыслу лучше спросить у гугла, он же заодно и орфографию поправит, и всё что надо сделает.

pousqie
()
Ответ на: комментарий от MyTrooName

для сравнения печатных слов называется расстоянием Левенштейна. не за что.

pousqie
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.