В сети есть не одна и не две научных работы на тему того, как выделять - что на странице является шаблоном, а что - контентом.
Наверняка должны быть программы, которые эти научные наработки используют.
Какие программы вы знаете, которые кравлят сайты с отсечением дублирующейся информации, одинаковой на разных страницах?