В связи с задачкой, фактически сводящейся к написанию своего гугла с шахматами и поэтессами, возник следующий вопрос: как чистить документы (в основном проблема именно с веб-страницами) от ненужной шелухи типа оглавлений, headers && footers, рекламных материалов и баннеров итд. И прежде чем садиться за написание своего велосипеда с квадратными колесами, хотелось бы почитать как другие люди решают эту задачу.
Если у кого есть ссылки, доки или книжки по этой тематике, поделитесь пожалуйста люди добрые ;)