Есть ли какая-то консольная утилита, способная сравнить два HTML-файла по степени похожести?

1

2

Есть два HTML-кода. В одном - статья на одном сайте, в другом - копия этой статьи на другом сайте, прошедшая некие html/xml преобразования. То есть, до и после текста статьи - все в коде разное (header/bottom), да и сам текст статьи на разных сайтах отформатирован разными тегами. И еще текст статьи тоже может немного отличаться.

Так вот, есть ли какая-то консольная утилита, которая покажет некую метрику, через которую можно (хотя бы с некоторой долей вероятности) понять, что эти два HTML-кода содержат одинаковую статью? Или что один HTML-код содержит часть статьи (достаточно крупную) с другой страницы?

Чтобы в утилите была какая-то реализация string kernels или там косинусного подобия или чего-то такого.

←	Господа пораскинем мозгами и инфой ... 3 Вопроса для обладателей 90 уровня ...

Что за проблемы на ровном месте?

→

https://www.php.net/manual/ru/function.similar-text.php

Получено гуглением «консольная утилита, способная сравнить два HTML-файла». На первой странице.

Irma ★★★
(08.07.24 18:35:15 MSK)

Ответ на: комментарий от Irma 08.07.24 18:35:15 MSK

Неплохо, надо посмотреть на тестовых примерах.

Xintrea ★★★★★
(08.07.24 18:40:48 MSK) автор топика

Ответ на: комментарий от Xintrea 08.07.24 18:40:48 MSK

То есть ты даже не гуглил. Наверно когнитивная нагрузка не позволяет.

anonymous
(08.07.24 19:02:39 MSK)

readability чтоб получить сырой текст + обвязка в пару строк для сравнения двух текстов.

anonymous
(08.07.24 19:16:39 MSK)

Ответ на: комментарий от Xintrea 08.07.24 18:40:48 MSK

Сначала прогнав этим https://github.com/j0k3r/php-readability

anonymous
(08.07.24 19:18:15 MSK)

кода содержат одинаковую статью?

Можно попробовать реализовать алгоритм на расстояние Левенштейна или взять готовый.

Ygor ★★★★★
(08.07.24 19:26:54 MSK)

#!/usr/bin/env python3
import difflib
import re
import sys

import requests


def unhtml(s: str) -> str:
    return re.sub(r'<[^<>]+>', '', s)


if __name__ == '__main__':
    if len(sys.argv) < 3:
        print('Usage:', sys.argv[0], 'URL1', 'URL2')
        sys.exit(1)

    article1 = requests.get(sys.argv[1]).text
    article2 = requests.get(sys.argv[2]).text

    d = difflib.Differ()
    diff = d.compare(unhtml(article1).split(), unhtml(article2).split())
    print ('\n'.join(diff))

rtxtxtrx ★★★
(09.07.24 05:14:38 MSK)
Последнее исправление: rtxtxtrx 09.07.24 05:20:01 MSK (всего исправлений: 2)

Ответ на: комментарий от Ygor 08.07.24 19:26:54 MSK

В HTML не просто строки, а XML-деревья. Поэтому и алгоритм нужен не один, а несколько.

Shushundr ★★★★★
(09.07.24 06:17:42 MSK)

Ответ на: комментарий от Shushundr 09.07.24 06:17:42 MSK

В HTML не просто строки, а XML-деревья.

Вообще-то это немного разные вещи.

anonymous
(09.07.24 07:46:37 MSK)

Мне кажется логичным просто выкинуть HTML-теги, а затем тупо сравнивать текст.

CrX ★★★★★
(09.07.24 07:56:46 MSK)

Ответ на: комментарий от CrX 09.07.24 07:56:46 MSK

Если просто удалить теги, то кроме текста могут остаться и стили (которые между ) и скрипты.

anonymous
(09.07.24 08:25:11 MSK)

Не для MyTetra?

dataman ★★★★★
(09.07.24 08:25:39 MSK)

Ответ на: комментарий от anonymous 09.07.24 08:25:11 MSK

Они по идее в <head>, который, очевидно, надо удалять полностью (тупо брать только содержимое <body>, а то и <article>). Технически, конечно, в <body> тоже могут быть скрипты воткнуты, но обычно так не делают.

CrX ★★★★★
(09.07.24 08:26:30 MSK)
Последнее исправление: CrX 09.07.24 08:26:49 MSK (всего исправлений: 1)

Ответ на: комментарий от anonymous 08.07.24 19:02:39 MSK

То есть ты даже не гуглил. Наверно когнитивная нагрузка не позволяет.

String kernels и косинусное подобие в топике тебе о чем-нибудь говорят?

Xintrea ★★★★★
(09.07.24 09:07:32 MSK) автор топика

Ответ на: комментарий от dataman 09.07.24 08:25:39 MSK

Не для MyTetra?

Для MyTetra Share, если быть точным.

Xintrea ★★★★★
(09.07.24 09:08:49 MSK) автор топика

Ответ на: комментарий от rtxtxtrx 09.07.24 05:14:38 MSK

d = difflib.Differ()
diff = d.compare(unhtml(article1).split(), unhtml(article2).split())
print ('\n'.join(diff))

Решение, видимо, имеет право на жизнь... Но в оценку надо включать объем обеих текстов и объем изменений... Кроме того, решение это работает с отдельными строками, но не с подстроками... Поэтому идентичный текст, написанный одной строкой и разбитый на строки, она будет считать сильно разным. Возможно, ситуацию исправит разбитие текста по принципу «одно слово - одна строка».

Xintrea ★★★★★
(09.07.24 09:22:19 MSK) автор топика

Ответ на: комментарий от Xintrea 09.07.24 09:22:19 MSK

https://github.com/matiskay/html-similarity
https://github.com/cckuailong/simHtml – порт на Go.

Может и на JS есть.

dataman ★★★★★
(09.07.24 09:32:19 MSK)

Ответ на: комментарий от Ygor 08.07.24 19:26:54 MSK

Можно попробовать реализовать алгоритм на расстояние Левенштейна или взять готовый.

Ага, благодарю.

Нашел вот такую универсальную штуку:

https://pypi.org/project/strsimpy/#levenshtein

Levenshtein
Normalized Levenshtein
Weighted Levenshtein
Damerau-Levenshtein
Optimal String Alignment
Jaro-Winkler
Longest Common Subsequence
Metric Longest Common Subsequence
N-Gram
Shingle (n-gram) based algorithms
    Q-Gram
    Cosine similarity
    Jaccard index
    Sorensen-Dice coefficient
    Overlap coefficient (i.e., Szymkiewicz-Simpson)

Xintrea ★★★★★
(09.07.24 09:43:13 MSK) автор топика

googled for you https://xmldiff.readthedocs.io/en/stable/

anonymous
(09.07.24 10:48:38 MSK)

Нашёл такую штуку: https://github.com/rieck/harry.

Многопоточная, на Си, от учёных. Пусть тут побудет. 🙂

dataman ★★★★★
(09.07.24 13:51:25 MSK)

Ответ на: комментарий от dataman 09.07.24 13:51:25 MSK

Для C++: RapidFuzz 3.0.0 и rapidfuzz-cpp 1.11.2 - библиотеки для нечёткого сравнения строк.

dataman ★★★★★
(09.07.24 15:01:33 MSK)

Ответ на: комментарий от anonymous 09.07.24 07:46:37 MSK

«Это» - местоимение, указывающее на один объект. Про один объект сложно сказать «разные», если это не шизофреник.

Shushundr ★★★★★
(10.07.24 10:52:31 MSK)

Текст из урла можно вытащить командой trafilatura а вот сравнивать, чатомгпт только если

trafilatura -u "https://www.linux.org.ru/forum/development/17670430?lastmod=17672002"
Есть два HTML-кода. В одном - статья на одном сайте, в другом - копия этой статьи на другом сайте, прошедшая некие html/xml преобразования. То есть, до и после текста статьи - все в коде разное (header/bottom), да и сам текст статьи на разных сайтах отформатирован разными тегами. И еще текст статьи тоже может немного отличаться.
Так вот, есть ли какая-то консольная утилита, которая покажет некую метрику, через которую можно (хотя бы с некоторой долей вероятности) понять, что эти два HTML-кода содержат одинаковую статью? Или что один HTML-код содержит часть статьи (достаточно крупную) с другой страницы?
Чтобы в утилите была какая-то реализация string kernels или там косинусного подобия или чего-то такого.
Есть ли какая-то консольная утилита, способная сравнить два HTML-файла по степени похожести?
Есть два HTML-кода. В одном - статья на одном сайте, в другом - копия этой статьи на другом сайте, прошедшая некие html/xml преобразования. То есть, до и после текста статьи - все в коде разное (header/bottom), да и сам текст статьи на разных сайтах отформатирован разными тегами. И еще текст статьи тоже может немного отличаться.

theurs ★★
(10.07.24 16:37:04 MSK)

Ответ на: комментарий от Shushundr 10.07.24 10:52:31 MSK

«Это» - местоимение

Осилил прочитать про местоимения? Теперь почитай про указательные частицы! И почитай чем отличается язык разметки, неважно – HTML или XML, от API для обработки документов с такой разметкой.

anonymous
(10.07.24 21:33:33 MSK)

Ответ на: комментарий от rtxtxtrx 09.07.24 05:14:38 MSK

Я бы ещё все \r\n и \t на пробелы заменил.

Shadow ★★★★★
(10.07.24 22:16:45 MSK)

Ответ на: комментарий от Xintrea 09.07.24 09:43:13 MSK

Вообще, лучше ещё взять NLP либу «natasha» и привести все слова к начальной форме в нижнем регисте, а потом натравить дамерау-левенштайна. У меня на коротких записках не очень работало, на статьях должно получаться отлично.

Shadow ★★★★★
(10.07.24 22:18:32 MSK)

Ответ на: комментарий от Shadow 10.07.24 22:16:45 MSK

Я думал, он догадается прочитать документацию и сделать что-то типа этого:

seq = difflib.SequenceMatcher(None, answer1, answer2)
print(seq.ratio() * 100)

А заменять ничего не нужно. str.split по аналогу регулярки \s+ разбивает

rtxtxtrx ★★★
(11.07.24 00:47:40 MSK)

Такое ощущение, что каждое поколение клоунов - быдлокодеров каждый раз наступает на один и те же грабли на одной и той же задаче.

Зы. Брось это дело

~~TurboPascal79~~
(15.07.24 01:10:14 MSK)

←	Господа пораскинем мозгами и инфой ... 3 Вопроса для обладателей 90 уровня ...

Development

Что за проблемы на ровном месте?

→

Похожие темы