Обработка html

0

0

Имеется много html-документов, скаченных wget-от. Обычно эта статья или книга на нескольких страницах, причем на странице обычно сам полезный текст и оформление сайта с менюшками, банерами ....

Для того чтобы удалить оформление обычно нужно удалить начало и конец документа. Можно ли этот процесс как-то автоматизировать. Ну или хотя бы автоматизировать удаление некоторых тегов.

Ссылка

←	Восстановление файлов

mount, fstab и т.д.

→

perl?

anonymous
(21.06.05 21:48:07 MSD)

Ссылка

> lynx --dump ./filename.html > filename.txt

:-)

anonymous
(22.06.05 09:39:23 MSD)

Ссылка

Да, наверное кроме perlа нет.

lynx --dump не прокатит, так как не удаляет всякие менюшки из документа.

Когда спрашивал, домал что есть что-то попроще. Надо-то в большинстве случаев удалить все теги типа <SCRIPT> <DIV> <TABLE> и добавить <META charset...>.

А иногда нужно просто удалить определенный большой фрагмент из документа, один и тот же из всего скаченного.

anonymous
(22.06.05 20:55:48 MSD)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Восстановление файлов

General

mount, fstab и т.д.

→

Похожие темы