LINUX.ORG.RU

ЯП для парсинга html страниц, отправка данных по form - БОТ


0

0

Плохо знаю эту тему, поэтому подскажите, пожалуйста, какой ЯП лучше всего подходит для этой задачи (парсинг html, отправка данных по post'у и т.д., что-то типа бота, который сам лазит по сайту и сам заполняет поля и щелкает кнопки)?

/* Наверное, perl, python, ... */

★★

Я на руби делал такое, вполне неплохо получается, ибо там есть: 1) Hpricot - это такой парсер html, который может работать с кривым html с незакрытыми тегами и прочими радостями 2) Mechanize - это как раз робот. Вроде как реинкарнация известной перловой одноименной либы.

dizza ★★★★★
()

>/* Наверное, perl, python, ... */

В принципе, так и есть.

yoghurt ★★★★★
()

google perl lwp
В сложный случаях Mozilla::Mechanize, IE::Mechanize, WWW::Mechanize

Svoloch ★★★
()

Для питона есть Scrapy, Mechanize, BeautifulSoup (и soupselect), html5lib, lxml.

Для работы с http помимо встроенных модулей могу порекомендовать pycurl

cyberax
()

Советую юзать Selenium в файрфоксе + какой-нибудь языковой биндинг к нему (на самом деле, не важно какой) - самая простая связка. Т.к. используется весь движок файрфокса, то будет работать с любыми сайтами.

dmitry_vk ★★★
()
Ответ на: комментарий от bk_

> Я имел ввиду, в котором языке это делается проще,

без лишних телодвижений.


На самом деле вопрос в том, где должна работать твоя программа, нужна ли поддержка всяких хитрых протокол аутентификации? Если речь про интернет, то, конечно, Common Lisp. Для интранет могут быть тонкости, типа kerberos и прочего.

archimag ★★★
()

Python конечно же.

Перловский (и не только перловский) LWP - это страшная неюзабельная мегажуть =).

Deleted
()

perl конечно же, всё что нужно для данной задачи уже написано и лежит на cpan

Reset ★★★★★
()
Ответ на: комментарий от jtootf

> кто бы сомневался :)

Ну, дык, а зачем вообще такие вопросы задавать? ;)

archimag ★★★
()
Ответ на: комментарий от arsi

руки покаж? ;)

Зачем? На руки я не жалуюсь, после прочтения документации я написал нормально работающий скрипт на perl + lwp. Но после python'а perl с lwp кажется страшной неюзабельной мегажутью =).

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.