rapidfuzz-cpp - быстрая, SIMD-оптимизированная библиотека на языке C++, реализующая несколько алгоритмов нечёткого сравнения строк и вычисления метрик:
- Левенштейна и Дамероу - Левенштейна;
- Хэмминга;
- Indel;
- Джаро и Джаро - Винклера;
- и некоторых других.
RapidFuzz - основанная на rapidfuzz-cpp библиотека для языка Python.
Лицензия: MIT.
Изменения:
- расстояние Хэмминга может использоваться для строк с разной длиной;
- в
rapidfuzz.fuzz
иrapidfuzz.process
удалена поддержка булевских функций препроцессора; - удалён модуль
rapidfuzz.string_metric
. Теперь все функции доступны в модулеrapidfuzz.distance
; - добавлена поддержка произвольных хэшируемых последовательностей Python;
- в
process.cdist
добавлена поддержкаNone
иfloat("nan")
; - другие изменения.
Исправления:
- исправлено деление на ноль в SIMD-реализации нормализованных метрик;
- исправлена обработка
score_cutoff > 1.0
в алгоритмах Джаро и Джаро - Винклер.
>>> Подробности