RapidFuzz 3.0.0 и rapidfuzz-cpp 1.11.2 - библиотеки для нечёткого сравнения строк

c++, python, библиотека, сравнение, строки

4

1

rapidfuzz-cpp - быстрая, SIMD-оптимизированная библиотека на языке C++, реализующая несколько алгоритмов нечёткого сравнения строк и вычисления метрик:

RapidFuzz - основанная на rapidfuzz-cpp библиотека для языка Python.

Лицензия: MIT.

Изменения:

расстояние Хэмминга может использоваться для строк с разной длиной;
в rapidfuzz.fuzz и rapidfuzz.process удалена поддержка булевских функций препроцессора;
удалён модуль rapidfuzz.string_metric. Теперь все функции доступны в модуле rapidfuzz.distance;
добавлена поддержка произвольных хэшируемых последовательностей Python;
в process.cdist добавлена поддержка None и float("nan");
другие изменения.

Исправления:

исправлено деление на ноль в SIMD-реализации нормализованных метрик;
исправлена обработка score_cutoff > 1.0 в алгоритмах Джаро и Джаро - Винклер.

>>> Подробности

Ссылка

←	Proton 8.0

Объявлен выход Fedora Linux 38

→

А зачем она такая быстрая нужна? Сейчас даже 2d игры тормозят благодаря паттернам ради паттернов и чтению книг вредителей типа Мартина, а тут какая-то экономия на спичках для разовой операции

~~uwuwuu~~
(18.04.23 13:34:21 MSK)

Ответ на: комментарий от uwuwuu 18.04.23 13:34:21 MSK

Для генетиков важна скорость.

dataman ★★★★★
(18.04.23 13:35:56 MSK) автор топика

Ответ на: комментарий от dataman 18.04.23 13:35:56 MSK

Генетические алгоритмы, насколько помню, кто-то из любителей 10 лет назад пробовал применить к перебору параметров компиляции ядра. У нас на факультете даже курсовые 25 лет назад на эту тему писали студенты. НИВЦ имел солидную библиотеку наработок на ФОРТРАН и на Си.

i_am_not_ai
(18.04.23 14:57:11 MSK)

Ответ на: комментарий от i_am_not_ai 18.04.23 14:57:11 MSK

к перебору параметров компиляции ядра

В итоге хорошо подбирало? :)

yu-boot ★★★★★
(18.04.23 16:01:50 MSK)

Ссылка

Ответ на: комментарий от uwuwuu 18.04.23 13:34:21 MSK

А зачем она такая быстрая нужна?

тут какая-то экономия на спичках для разовой операции

Не обязательно разовая. Нечто подобное используется CAT-программах для переводчиков, чтобы нечеткие совпадения вылавливать. В итоге и работать легче, и единообразность обеспечивается. Каждый сегмент перевода – поиск по всей базе. Задержка – обычно доли секунды, но все равно ощутимая. Где-то база крохотная, на один небольшой проект. Где-то – на миллионы строк, переведенная десятками людей за десять лет.

Если выкроить 100 мс на каждом сегменте, на проект из 2000 сегментов выйдет 200 выиграных секунд, или 3 минуты 20 секунд. Согласен, это немного, но работать тем приятнее, чем быстрее всё прогружается. Возможно, снижение утомления позволит перевести больше за день.

Есть еще обработка естественного языка. Для меня это темный лес, но догадываюсь, что там полно задач, где нужно обработать огромные объемы текста. Где может использоваться поиск нечетких собпадений? Допустим, в том же поиске, если, допустим, прикрутить распознавание синонимов. Или в системах выявления плагиата.

Vidrele ★★★★
(18.04.23 18:19:30 MSK)

Ответ на: комментарий от Vidrele 18.04.23 18:19:30 MSK

использовать технологии предполагаемого противника товарищ майор запрещает? оно же open-source по это самое или я совсем не в кассу?

dummy ★★
(19.04.23 07:07:16 MSK)
Последнее исправление: dummy 19.04.23 07:10:48 MSK (всего исправлений: 2)

Ответ на: комментарий от dummy 19.04.23 07:07:16 MSK

По-моему, ты кому-то совсем не тому отвечал.

hobbit ★★★★★
(19.04.23 10:16:42 MSK)

Ссылка

Ответ на: комментарий от uwuwuu 18.04.23 13:34:21 MSK

А всякие геномы, секвенирование, полнотекстовый поиск и прочее вот это все?

gns ★★★★★
(19.04.23 12:04:09 MSK)

Ответ на: комментарий от gns 19.04.23 12:04:09 MSK

Ну Postgres и MySQL не используют сторонние либы в своих движках главным образом из-за лицензионных ограничений, да и речь тащем та про питоновскую либу

~~uwuwuu~~
(19.04.23 15:55:00 MSK)

Ответ на: комментарий от uwuwuu 19.04.23 15:55:00 MSK

речь тащем та про питоновскую либу

Она лишь вторая скрипка.

dataman ★★★★★
(19.04.23 16:07:13 MSK) автор топика

Ссылка

Ответ на: комментарий от uwuwuu 19.04.23 15:55:00 MSK

А что, полнотекстовым поиском только СУБД занимаются? Всякие секвенаторы, генетики, искатели структуры белка и прочие товарищи ученые в области больших данных (aka Data Scientists) почему-то питон как раз очень любят. Там какой-то странной математики понаписали в ассортименте. И в питон, как я понмаю, только биндинги из основной библиотеки на крестах сделали. Дергать SIMD только из Питона — бессмысленно, только на преобразовании параметров на вызове весь профит потерять можно.

gns ★★★★★
(19.04.23 16:22:44 MSK)
Последнее исправление: gns 19.04.23 16:26:35 MSK (всего исправлений: 1)

Ответ на: комментарий от gns 19.04.23 16:22:44 MSK

Всякие секвенаторы, генетики, искатели структуры белка

таких людей в мире еще меньше чем активных разработчиков ядра линукса

~~uwuwuu~~
(19.04.23 20:14:20 MSK)

Ответ на: комментарий от uwuwuu 19.04.23 20:14:20 MSK

Даладно! В любом универе на любом биофаке, плюс мединституты, плюс вся фарма.

gns ★★★★★
(19.04.23 23:36:02 MSK)
Последнее исправление: gns 19.04.23 23:36:40 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от uwuwuu 18.04.23 13:34:21 MSK

А что за Мартин?

Werenter ★★☆
(26.04.23 19:58:38 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Proton 8.0

Open Source

Объявлен выход Fedora Linux 38

→

Похожие темы