Имеется много html-документов, скаченных wget-от. Обычно эта статья или книга на нескольких страницах, причем на странице обычно сам полезный текст и оформление сайта с менюшками, банерами ....
Для того чтобы удалить оформление обычно нужно удалить начало и конец документа. Можно ли этот процесс как-то автоматизировать. Ну или хотя бы автоматизировать удаление некоторых тегов.