LINUX.ORG.RU

Перекачать сайт в базу данных


0

0

Подскажите - как можно выкачать сайт с данными, структурированными с помощью форматирования (тут жирненьким, тут табличка, а этот параметр всегда через запятую отбит и т.д.)? Данные видны только после пользования встроенной формой поиска.

Хочется сразу распарсить и слить в базу данных.

Чем это сделать? Писать на одном из скриптовых языков (каком?) либо же писать надстройку к известному выкачивателю HTTrack?

Заранее респект местным умельцам за советы.

У меня предложение - сделать линки на форумы менее заметными - а линки на последние сообщения по всем форумам - жирнее.

А то все в толксах вхолостую треплются - тут хоть бы баллов набрали.

gkrellm
() автор топика

Perl тебе в руки. Плюс какой-нибудь HTML::Parser (или типа того), плюс регэкспы.

Ramen ★★★★
()
Ответ на: комментарий от gkrellm

В девелопмент надо было идти. Может не выгнали бы.

Делать собственного агента. Язык использовать любой, какой знаешь. Брать готовую либу-вебклиента и бибилиотеку для парсинга.

LamerOk ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.