LINUX.ORG.RU

Как паразитировать на Google Search?


0

1

Мне тут один потенциальный работодатель дал тестовое задание, суть которого приблизительно такова:
пользователь вводит поисковую фразу, пхп (или перл/питон/руби/баш - неважно) делает запрос гуглу, парсит его, получаем на выходе принципиально новый с нескушными обоями результат поиска.

Как лучше сделать?
1) Google Web Search API (который deprecated с недавних пор);
2) JSON/Atom Custom Search API;
3) какбы эмуляция браузера средствами сервер-сайд скрипта.

Для 1 и 2 нужен какой-то волшебный ключ и присутсвует ограничение на 100 запросов в сутки.
3 - мне дико не нравится.

Поделитесь пожалуйста опытом.



Последнее исправление: d0de-stillhet (всего исправлений: 1)
Ответ на: комментарий от staseg

API конечно лучше, но, я думаю, потенциальный работодатель хочет видеть не то, как ты пользуешься парой функций.

staseg ★★★★★
()
Ответ на: комментарий от adepto

о! спасибо. оно даже через curl легко и непринужденно работает )

d0de-stillhet
() автор топика
Ответ на: комментарий от ggrn

спасибо. но я наверно на пхп сделаю, ибо в питоне не силен

d0de-stillhet
() автор топика
Ответ на: комментарий от ggrn

>бан в гугле 0_о?

В Яндексе я сам видел, что если заподозрят, что ты робот, заставят ввести капчу.

В Гугле такого видеть не приходилось, но тоже, наверное, заставят.

proud_anon ★★★★★
()
Ответ на: комментарий от ggrn

Ага. На ЛОРе даже регулярно темы всплывали, ищи по названию «Забанили в гугле». Корпорация зла не любит роботов и иногда требует циферки.

amomymous ★★★
()
Ответ на: комментарий от thesame

Да не, робота забанят, это ясно. Это ж тестовое задание, его прогонят пару раз и забудут. Правильное решение - покупка у гугла АПИ, но это должен делать работодатель, а не собеседующийся.

staseg ★★★★★
()

Много запросов с одного IP и капча во все поля вместо результатов поиска... ибо гугл не любит очень умных

F457 ★★★★
()

С Тором все отдаст, проверено.
Год с лишним назад писал подобное с целью выпытать у гугла число веб-сайтов по доменам первого уровня.
Без Тора тоже, только если пользователь не слишком быстро печатает :)
Питон, Тор, Курл, подмена юзерагентов, таймауты.

certanista
()

Может, задачу можно решить использованием плагинов Stylish и Greasemonkey? Тогда точно никаких капч не потребуется.

Wizard_ ★★★★★
()
Ответ на: комментарий от Wizard_

нельзя. решение должно быть исключительно сервер-сайд

d0de-stillhet
() автор топика

всем спасибо. в общем понятно, как-нибудь сделаю

d0de-stillhet
() автор топика

> пользователь вводит поисковую фразу, пхп (или перл/питон/руби/баш - неважно) делает запрос гуглу, парсит его, получаем на выходе принципиально новый с нескушными обоями результат поиска.

Кто и что парсит? «Нескучные обои» - это подмена выдачи на стороне клиента или оформление отчета в удобоваримом виде?

3) какбы эмуляция браузера средствами сервер-сайд скрипта.

Сервер-сайд тут вообще при чем?

3 - мне дико не нравится.

Чем же?

alienclaster ★★★
()
Ответ на: комментарий от F457

Много запросов с одного IP и капча во все поля вместо результатов поиска... ибо гугл не любит очень умных

Зато любит старательных.

alienclaster ★★★
()
Ответ на: комментарий от alienclaster

Видимо я плохо объясняю что требовалось.
Пользователь в браузере открывает например http://супер-пупер-искалка.рф/,
вводит в поле фразу типа «как поставить линукс», тыкает кнопку «искать!»,
открывается страница http://супер-пупер-искалка.рф/?искать=как%20поставить%20линукс с результатами поиска.

В варианте №3 я подразумевал что скрипт берет вон ту гетовую переменную, через курл делает запрос к гуглю, парсит его ужасный hmtl'ный выхлоп и форматирует как мне угодно. Не нравился мне этот вариант сложностью именно парсинга.

d0de-stillhet
() автор топика
Ответ на: комментарий от d0de-stillhet

Ты пишешь поисковик, который будет использовать результаты поиска Google? У меня только один вопрос - ну ты понял какой

alienclaster ★★★
()
Ответ на: комментарий от d0de-stillhet

>>я подразумевал что скрипт берет вон ту гетовую переменную, через курл

и в чём собственно затык? или за вас написать?

ggrn ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.