LINUX.ORG.RU

Обработка html


0

0

Имеется много html-документов, скаченных wget-от. Обычно эта статья или книга на нескольких страницах, причем на странице обычно сам полезный текст и оформление сайта с менюшками, банерами ....

Для того чтобы удалить оформление обычно нужно удалить начало и конец документа. Можно ли этот процесс как-то автоматизировать. Ну или хотя бы автоматизировать удаление некоторых тегов.

anonymous


> lynx --dump ./filename.html > filename.txt

:-)

anonymous
()

Да, наверное кроме perlа нет.

lynx --dump не прокатит, так как не удаляет всякие менюшки из документа.

Когда спрашивал, домал что есть что-то попроще. Надо-то в большинстве случаев удалить все теги типа <SCRIPT> <DIV> <TABLE> и добавить <META charset...>.

А иногда нужно просто удалить определенный большой фрагмент из документа, один и тот же из всего скаченного.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.