LINUX.ORG.RU

История изменений

Исправление anonymous_incognito, (текущая версия) :

Во примерно такие записи и надо объединять! Разве что жестоких опечаток не очень много (хотя есть). Ну и год может быть банально не проставлен.

Пока что пришёл к выводу, что искусственный интеллект для полноценного правильно сравнения мне не создать ;-) Следовательно, чем-то придётся жертвовать. Думаю для нечёткого сравнения строк в каждом из полей просто выбрать какой-нибудь критерий похожести.

Опечаток типа «кууууулинарию» не припомню, но что-то вроде «нгкулинарию» попадается. (Интересно как их допустили, но приходится считаться)

Метод Хеминга требует одинаковой длины, но метод Левенштейна слегка ресурсожор сам по себе. Но попробую, что получится.

Исходная версия anonymous_incognito, :

Во примерно такие записи и надо объединять! Разве что жестоких опечаток не очень много (хотя есть). Ну и год может быть банально не проставлен.

Пока что пришёл к выводу, что искусственный интеллект для полноценного правильно сравнения мне не создать ;-) Следовательно, чем-то придётся жертвовать. Думаю для нечёткого сравнения строк в каждом из полей просто выбрать какой-нибудь критерий похожести.

Опечаток типа «кууууулинарию» не припомню, но что-то вроде «нгкулинарию» попадается. (Интересно как их допустили, но приходится считаться)