LINUX.ORG.RU

Чем кравлить форумы?


0

1

В сети есть не одна и не две научных работы на тему того, как выделять - что на странице является шаблоном, а что - контентом.

Наверняка должны быть программы, которые эти научные наработки используют.

Какие программы вы знаете, которые кравлят сайты с отсечением дублирующейся информации, одинаковой на разных страницах?

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.