LINUX.ORG.RU

Парсинг выдачи Яндекса. Быстро банят.


0

1

Нужно: 1500 запросов/день к веб-поиску Яндекса.

Проблема: банят после десятка запросов.

Возможные решения: менять UA, IP (много не могу себе позволить), захватывать какие-то куки с главной Яндекса, варьировать таймаут.

Как решить? На исследования времени нет.


Ответ на: комментарий от sin_a

Другой сервис для получение веб-выдачи Яндекса? Всех банят. Лучше со своим разбираться.

daris
() автор топика

Обычно таймаута хватает, но тоже не всегда срабатывает.

Есть ещё http://xml.yandex.ru/ , там дадут 1000 запросов за день при зарегистрированном айпи, плюс есть фирмы, которые за небольшую сумму продают прокси, уже зарегистрированные в яндексе. Правда, ты может немного нарушишь лицензионное соглашение, но это всяко лучше тупого парсинга.

anonymous
()

Как решить? На исследования времени нет.

НЕТ ВРЕМЕНИ ОБЬЯСНЯТЬ, ПАРСИ ЯНДЕКС!

Перестать заниматься решением плохо поставленных задач на скорость. Честно.

Alve ★★★★★
()

Быстро банят

Жаль, не везде.

По сабжу: нужно тупо дать яндексу денег.

thesis ★★★★★
()

Менять хидеры, менять ипы. Иначе никак.
Либо договориться с яндексом, но я думаю что они в пень пошлют.

tazhate ★★★★★
()

Гугль / Яндекс парсятся через армию прокси. Прокси берутся всё в тех же поисковиках, всё теми же ботами. )

Reaper ★★
()
Ответ на: комментарий от anonymous

Тупого. Ок. Думаешь, использовать xml-поиск с неверными данными - это не тупо? Ах, ты не в курсе... Я бы на твоём месте не говорил о том, чего него знаю.

daris
() автор топика
Ответ на: комментарий от Alve

Цитируешь то, чего я не говорил? Армию пустозвонов пополняешь, молодец. Совет: не считай незнакомых люедй априори глупее себя.

daris
() автор топика
Ответ на: комментарий от daris

Только проснулся, тупость написал. Заранее подходящие источники проксей ищутся, не из гугля, конечно же, их выковыривают.

Reaper ★★
()
Ответ на: комментарий от Reaper

Уже проверил. Вариант с куками выглядит многообещающим.

Не знаешь, Яндекс меняет условия бана для разных стран?

daris
() автор топика
Ответ на: комментарий от daris

Имплементировал. Подстановка UA и переход по ссыкам внутри позвояют держаться. Пока не забании.

daris
() автор топика
Ответ на: комментарий от free_serj

Mechanize.

Если получится с одного ip дёргать хотя бы по 20 страниц в минуту, значит удалось и можно писать статью. Или не писать и оградиться от конкурентов...

daris
() автор топика
Ответ на: комментарий от trashymichael

Так он и использует headless-браузер.
Куки там держатся в cookie_jar

ТС, добавляй еще к запросам параметр &numdoc=50 - кол-во результатов на странице (максимум - 50). Это если ты не через API/XML, а прямо с yandex.ru забираешь

kovrik ★★★★★
()

Ты же вроде в Канаду собирался?

q9
()
Ответ на: комментарий от kovrik

Ты для начала определи по какому критерию они банят - куки, IP (скорее всего) или еще что-то. А то какой смысл менять UA?
Прокси: например, http://hidemyass.com/

тестировал на днях sespider, в hidemyass pro vpn тоже всё побанено при xml выдаче.

ktk ★★★★
()
Ответ на: комментарий от kovrik

По ip :)

Если есть куки, ua и какая-то деятельность перед запросом - банят медленней.

К ip и ua, я полагаю, они привязывают user id и так отслеживают. Толком это не проверял, да и незачем.

daris
() автор топика

1 - берёш в сети список проксей (брать надо часто - оне постоянно меняются)

2 - по каждой проксе смотришь географию (по geoip), те которые от тебя далеки - выбрасываеш. (по разной географии, разная выдача)

3 - ходиш через подошедшие прокси. То есть на отдельную проксю - отдельный робот, эмулирующий «виртуального» человека, со своим подмножеством запросов и визитов

4 - чтобы не банили практически моментально, делаешь значительные паузы между запросами, в которые (в паузы) «смотришь» сайты из пред.выдачи.

5 (опционально) чтобы совсем хорошо - надо включать js в спайдере, то есть тянуться за страницами полноценным броузером.

и резюмируя - всё это полная хрень, суета сует и негодный SEO. Делайте сайты для людей, всё и так будет хорошо.

MKuznetsov ★★★★★
()
Ответ на: комментарий от MKuznetsov

Про geoip - спасибо. Хотя уже завёл всё это счастье почти так же.

daris
() автор топика
Ответ на: комментарий от daris

Используйте Tor...

... точнее его Exit Nodes.

Ваша задача - поставить на localhost onion-router и перенаправить запросы на тот проксик, что идет в его составе. Дальше он сам. По умолчанию время перестроения цепочек — порядка 10 минут. Можно уменьшить это время параметрами.

Плюс к тому — смена UA (Вы это уже делаете).

mr_tacita_comiter
()
Ответ на: Используйте Tor... от mr_tacita_comiter

Только добавлю.

Будьте готовы к тому, что ответы от яндекса будут приходить с разной скоростью. Это связано с тем, что точки выхода и каналы между ними разной ширины и прокачивают через себя по-разному. Ответы в ряде случаев могут не приходить вовсе, если точка выхода уже забанена. Для ускорения процесса Вы можете использовать сразу последнюю точку выхода, минуя цепочку из промежуточных луковичных роутеров. Это ускорит процесс, но уменьшит безопасность (хотя она Вам по-моему, в данном случае не важна).

mr_tacita_comiter
()

Тоже в своё время нужно было спарсить кой-чего...

... и делал вот так:

...
COOKIESFILE=cookie.txt # Файл куда мы будем писать куку
GETCOOKIESURL="http://kiks.yandex.ru/su/" # Адрес откуда мы будем куку забирать
TMPRESULT=tmpresult.txt # Временный файл из которого будем забирать нужное
...
# Для начала, забираем куку для Яндекса, без неё он будет запрашивать капчу
wget --cookies=on --keep-session-cookies --save-cookies=$COOKIESFILE --load-cookies=$COOKIEFILE $GETCOOKIESURL
...
# Отправляем запрос в яндекс.вебмастер
wget --cookies=on --keep-session-cookies --load-cookies=$COOKIESFILE -O $TMPRESULT "http://wordstat.yandex.ru/?cmd=words&text=$line"
...

Парсил я при этом вордстат, бана не получал. Возможно и с выдачей подобное сработает.

kp
()
Ответ на: комментарий от daris

Мне хватало рандомных тайм-аутов между запрсами, но то было около года назад, возможно сейчас всё серьёзно усложнилось.

kp
()

сеошник хуже вылдродня

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.