LINUX.ORG.RU

cli. дамп web станицы.


0

1

Что-то курю я man-ы и ничего не накуриваю....

Вот скачиваю я страницу при помощи lynx -dump -nolist URL

Хочется эту страницу покромсать и обрезать ненужное. Это я сделал (помогли вчера добрые люди). Потом планирую сделать из этой страницы простейший html с картинками и тут возникает проблема.

В полученном dump-е ссылки на картинки заменяются на [blablabla.jpg] Как мне получить в дампе ссылки вида [http://somesite.com/blabla/blablabla.jpg] ?

Или же оставить все так как есть и в каталог с дампом сграбить все эти blablabla.jpg

Что-то я второй день экспериментирую с wget, lynx и ничего не могу добиться толкового.

Надеюсь выразился понятно. Спасибо.

★★

Вот скачиваю я страницу при помощи lynx -dump -nolist URL

Оно так разве html выдает, а не отрендеренную страницу? Как ты там ссылки на картинки находишь?

Что-то я второй день экспериментирую с wget, lynx и ничего не могу добиться толкового.

Ну попробуй еще curl :)

madcore ★★★★★
()
Ответ на: комментарий от madcore

Оно так разве html выдает, а не отрендеренную страницу? Как ты там ссылки на картинки находишь?

Да, выдает отрендеренную страницу с такими вот вкраплениями - [somepicture.jpg]

Вот эти somepicture.jpg хотелось бы тоже сграбить....

:-) смотрю и curl...

swarnk ★★
() автор топика
Ответ на: комментарий от swarnk
$ echo '[qwert.jpg]' |sed -r 's,\[([^]]+)\],http://site1/\1,'
http://site1/qwert.jpg

// кеп

anonymous
()
Ответ на: комментарий от kelyar

Эээххх. Было бы прекрасно так сделать. Давайте я поясню еще что я хочу сделать и получить.

Я хочу получить из веб страницы локальный файл в котором не будет всей той мишуры которую дает wget. Lynx -dump для этого хорошо подходит.

В этом файле должны присутствовать ссылки на локальные файлы изображений. Эти изображения тоже нужно сграбить с целевого сайта.

swarnk ★★
() автор топика
Ответ на: комментарий от swarnk

Домен заранее известен, но изображения-то могут находиться на сторонних ресурсах...

А разве lynx -dump не оставляет неизменными img src=""?

VirRaa ★★★
()
Ответ на: комментарий от swarnk

А то что предложено с sed не подходит. Как я буду заменять [qwert.jpg] на заранее неизвестное http://site1

откуда я знаю. Выложите кусок файла ДО, и напишите, ЧТО вы хотите получить.

Ну а если в исходных файлах нет домена, то вам поможет исключительно libastral.so.

Если он есть - то это задача для sed.

drBatty ★★
()
Ответ на: комментарий от VirRaa

Ай блин, запутал я видимо народ окончательно. Сделаю наверное так:

отдельно

lynx -dump -nolist

и

lynx -dump -listonly

а потом буду действовать дальше. Поглядим что выйдет.

swarnk ★★
() автор топика
Ответ на: комментарий от swarnk

А разве под линукс нет готовых грабилок?

imul ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.