LINUX.ORG.RU

Парсим Google на Perl (или Google Hack HowTo)

 , , , , ,


0

2

В статье вы найдете описание метода, позволяющего эффективно посылать запросы серверам Google и обрабатывать ответы. Прилагаются скрипты на Perl в количестве 3 штук, а также список из 106 рабочих анонимайзеров. Ключевые моменты:

  • Как обойти капчу и ограничение на частоту запросов
  • Как собрать прокси и проверить их валидность
  • Как распараллелить посылку запросов
  • Как реализовать возможность приостанавливать скрипт
  • Пишем универсальный парсер

Приведенные скрипты могут быть использованы в аналитических исследованиях, а также автоматизации сбора различного рода информации при помощи поисковой системы Google.

>>> Подробности



Проверено: Shaman007 ()
Ответ на: комментарий от Gary

Google Search API накладывает ограничения на посылаемые запросы (об этом я тоже писал). Работая с веб-интерфейсом можно использовать все возможности поисковой машины.

afiskon
() автор топика

нафиг не нать, прокси нынче стоят копейки.

anonymous
()

Реклама уютного бложика детектед

Язабан

derrix
()

Хотя материал интересный, но на новость на _главной_ не тянет.

//Добавил eax.me в закладки.

Chaser_Andrey ★★★★★
()

Скрипты в принципе написанны нормально.Только автор забыл упоминуть что они все однопоточные и юзают блокируемые вызовы(man IO::INET)

Завтра более подробней посмотрю

pinachet ★★★★★
()

А кряки к интернету прилагаются?

anonymous
()
Ответ на: комментарий от afiskon

Я с одного IP сделал порядка 108,000 запросов в 100 потоков (где-то за 7.5 минут). Что я сделал не так и почему меня не забанили?

sjinks ★★★
()

> а также список из 106 рабочих анонимайзеров

А почему не TOR? SIGNAL NEWNYM вроде никто не отменял.

sjinks ★★★
()

автору новости - памятник позолоченный в центре столицы поставить. добавил статью в закладки .

Voviandr
()
Ответ на: комментарий от Gary

>В свете существования миллиона официальных API как-то сомнительно всё это

каких официальных ? веб-сервис SOAP гугловский прикрыли.

Voviandr
()
Ответ на: комментарий от pinachet

> ох уж эти стереотипы

Забавно, что в последние годы ни одна Perl-конференция не обходится без развенчания «мифов» и доказывания что 1) перл жив; 2) на перле можно писать ясный код. Сами себя причём ребята убеждают, укрепляют свою веру. Скорей бы уже эта горстка сектантов вышла на пенсию. Радует только, что молодежь совсем не интересуется этим говном мамонта.

anonymous
()

надо будет заблочить этот блог на фаерволе, чтоб никто из корпоративной сети не зашел. считайте это моим скромным вкладом в борьбу с выскочками-блогофорсерами.

anonymous
()
Ответ на: комментарий от anonymous

А вывешивать баннер закрывающий текст - хамство!

(c) Alexandr A Alexeev 2010

а на хеллорде (с)александр алексеев тоже копирайт ставит?

tesla
()

Связаться со мной можно с помощью электропочты дапльше не читал ибо начал блевать.

Ubuntu1004
()
Ответ на: комментарий от amonymous

> К стати, что работает быстрее python или perl?

Толсто. Всем же известно, что Java всех быстрее.

anonymous
()

Спасибо!!! Хорошая статья.

anonymous
()
Ответ на: комментарий от anonymous

>Радует только, что молодежь совсем не интересуется этим...

Интересуется!

anonymous
()

Почему `shuffle` а не `sort -R` ?

anonymous
()

Шоза скрипт-кидди хауту?

jeuta ★★★★
()

Годная статейка, сохронил. За Perl - отдельное спасибо.

anonymous
()

хм... то есть эту ублюдочную школоту пропускать можно а новости про выпускаемое свободное ПО - нет.

да. лор. как он есть.

anonymous
()
Ответ на: комментарий от anonymous

нет. присутсвие таких как ты с разработанным широким очком напрягло. воняет.

капча aconite abdel намекает. шоману вместе с аффтаром новости йаду прописать!

anonymous
()

Perl изящен, естественен и вечен.

anonymous
()

Только хотел сказать, что новость зашибись, пока не увидел код. Вот понимаю модули писали, API и т.п., а так шлак. Вот, автор скажи как мне с помощью твоего кода закинуть список URL'ов с тегами в Google.Bookmarks ?

gh0stwizard ★★★★★
()
Ответ на: комментарий от gh0stwizard

>> как мне с помощью твоего кода закинуть список URL'ов с тегами в Google.Bookmarks

Такая задача и не ставилась.

afiskon
() автор топика
Ответ на: комментарий от afiskon

>В статье вы найдете описание метода, позволяющего эффективно посылать запросы серверам Google...

Тогда надо исправить на «В статье вы найдете описание метода, позволяющего посылать запросы к поисковому сайту Google». А в нынешнем контексте я понял что сделан универсальный модуль и API, которые позволяет работать с любыми сервисами гугла. Вобщем, в новости ЧСВ over9000. ИМХО.

gh0stwizard ★★★★★
()
Ответ на: комментарий от anonymous

Забавно, что в последние годы ни одна Perl-конференция не обходится без развенчания «мифов» и доказывания что 1) перл жив; 2) на перле можно писать ясный код. Сами себя причём ребята убеждают, укрепляют свою веру. Скорей бы уже эта горстка сектантов вышла на пенсию. Радует только, что молодежь совсем не интересуется этим говном мамонта.

Ты — хуй.

guitarist ★★
()
Ответ на: комментарий от anonymous

> Скорей бы уже эта горстка сектантов вышла на пенсию. Радует только, что молодежь совсем не интересуется этим говном мамонта.

Молодёжь? О какой молодёжи ты говоришь? О гопоте? О школоте? Адекватная молодёжь работающая в сфере автоматизации не видит никаких альтернатив для ряда задач, для которых предназначен Perl.

Меня всегда удивляет беспомощное быдло, которое просто не в стостоянии осилить Perl, но продолжает срать кирпичами. Когда подобные тебе уже сдохнут-то?

deadlock
()
Ответ на: комментарий от deadlock

Сударь, а не свалить ли Вам на Двачик уже? Там Ваш сленг будет уместен и всем понятен. А перед этим поведайте, пожалуйста, сему почтенному собранию, какие-такие задачи автоматизации может выполнить Perl и не может, скажем, Python.

robert_foster ★★
()

А я так надеялся увидеть красивый кусок кода с AnyEvent, HTML::TokeParser и динамическим распределением нагрузки между проксями. Короче, автору еще есть куда расти

anonymous7
()
Ответ на: re от x97Rang

re

ну и запрос послать через LWP, а не через системный wget
сори за занудство, но использование `` в коде для меня моветон
ну а в общем нормально, главное не останавливаться на достигнутом и изучать perl дальше

x97Rang ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.