Есть два HTML-кода. В одном - статья на одном сайте, в другом - копия этой статьи на другом сайте, прошедшая некие html/xml преобразования. То есть, до и после текста статьи - все в коде разное (header/bottom), да и сам текст статьи на разных сайтах отформатирован разными тегами. И еще текст статьи тоже может немного отличаться.
Так вот, есть ли какая-то консольная утилита, которая покажет некую метрику, через которую можно (хотя бы с некоторой долей вероятности) понять, что эти два HTML-кода содержат одинаковую статью? Или что один HTML-код содержит часть статьи (достаточно крупную) с другой страницы?
Чтобы в утилите была какая-то реализация string kernels или там косинусного подобия или чего-то такого.
Похожие темы
- Форум Полноценное взаимодействие с консольной утилитой (2012)
- Новости Консольная утилита jq сменила адрес (2023)
- Форум Консольная утилита для скачивания с letitbit (2011)
- Форум Gmai. консольная утилита для загрузки вложений (2009)
- Форум Ищу консольную утилиту, генерирующую миди-сигнал (2017)
- Форум Что должна уметь делать консольная утилита? (2024)
- Форум Существует ли консольная утилита для проверки на предмет синтаксических ошибок в HTML? (2017)
- Форум Подскажите консольный конвертор html в svg (2014)
- Форум Консольная утилита для доступа к Google Drive (2015)
- Форум интерактивная консольная утилита для поиска в исходниках (2015)