Приветствую!
Сделал скрипт, который выдергивает с веб сайта поиска работы вакансии и загружает их в базу. Также этот скрипт проверяет их на уникальность по трем полям: название вакансии, название компании и локейшн. Если такая вакансия уже есть в базе, то скрипт ее пропускает.
Все работает хорошо, но хочется улучшить. Я заметил, что в базе появляются похожие вакансии, где название вакансии или название конторы немного изменены (вероятно, чтобы придать вакансии уникальность). При этом, подробное описание вакансии практически идентичное. Для меня это дубль, который засоряет базу.
Вопрос, есть ли какая-то библиотека в python, которая предоставит возможность сравнить два куска html и выдать в виде некоторой величины похожесть текста?