LINUX.ORG.RU

Как скрипту на Python 3 максимально прикинуться браузером?

 ,


3

4

Собственно сабж. Парсинг. Что проверяют сайты кроме ip? По ip не банят, т.к. после отвала скрипта с браузера захожу спокойно. Как сделать, чтоб меня не палили и считали браузером? Слипы стоят. Юзерагент от фаерфокса виндового

★★★★★

Последнее исправление: Qwentor (всего исправлений: 2)

Ответ на: комментарий от curufinwe

юзерагент от фаерфокса стоит

Qwentor ★★★★★
() автор топика

Чтобы совсем считали нужно что-то типа phantomjs. А так правильные хедеры и печеньки прокатывают в большинстве случаев(если конечно там конечно жсом ничего не проверяют).

ritsufag ★★★★★
()

Что проверяют сайты кроме ip?

какой конкретно сайт ты проверяешь?

Deleted
()
Ответ на: комментарий от Qwentor

Посмотри в браузере, в девтулзе какие он посылает и что получает.

ritsufag ★★★★★
()
Ответ на: комментарий от Qwentor

Selenium, во-первых, на питоне хорошо работает — биндинги есть. Во-вторых, это все работает и без иксов хорошо (гоняю на VDS'ке только с ssh-доступом)

ktan ★★★
()
Последнее исправление: ktan (всего исправлений: 1)

Посмотри dagr. Там что-то такое используется.

Radjah ★★★★★
()

технически Selenium + PhantomJS (или просто фантом), должны работать. Оно даже скриншоты умеет. Да, без иксов. Но обычно просто по ip банят, максимум, действительно JS проверяют, но это совсем уж дикость тогда. Мне всегда хватало пары левых ip и юзерагенты.

Dred ★★★★★
()
Ответ на: комментарий от Bad_ptr

это просто домен 3-го уровня, как захотели так и назвали, хотя идиоты конечно, чо уж там...

ei-grad ★★★★★
()
Ответ на: комментарий от Bad_ptr

В свое время сильно удивился увидев на биллбордах рекламу сайта www2.mts.ru :-)

ei-grad ★★★★★
()
Ответ на: комментарий от Bad_ptr

это поддомен. Более внятным примером будет например, если у тебя есть домен mysite.com, ты можешь создать поддомен, blog.mysite.com или en.mysite.com, это общепринятая практика разделения домена на поддомены по тематике. К www это отношения не имеет. www — это тоже поддомен. Когда разрабатывали эти схемы, предполагалось, что это будет стандартный поддомен любого сайта, для доступа по http (в отличии например от ftp). Собственно, как всегда, хотели как лучше. В итоге, пошла путаница с поисковиками, получилось, что http://www.site.com и site.com — 2 разных домена, с одинаковым контентом, пошли какие то склейки, редиректы, в итоге, если не указать поисковику явно, какой домен должен быть основным, он может взять как основной любой из них, как c www так и без него. Короче, дурдом, как всегда. Вверху всегда сидят идиоты, а внизу всегда расхлебывают за ними дерьмо, ничего нового:)

filequest
()

Вроде с простым перебором прокси и кучей юзерагентов работает, всем спасибо!

Qwentor ★★★★★
() автор топика

Есть косвенные признаки по которым сайт определяет от кого запрос. В наиболее тяжелых случаях приходится даже движение курсора мыши имитировать.

anonymous
()
Ответ на: комментарий от Shadow

Кстати, московские таджики и иранцы понимают друг-друга?

Там не могу ответить, нужно 2 скора подкопить. Да, таджики понимают иранцев и наоборот, таджики — не азиаты какие-то (в общепринятом смысле), а официльный ираноязычный народ, их язык официально называется «таджикский фарси», ну а фарси (парси) — официальный язык персов. Вот только таджики понимают устную речь, но не все понимают арабское персидское письмо (начертания насха, насталика), потому что совок при русификации Азии кириллизировал их, но в целом и общем сказать, переход Таджикистана на персидское письмо — вопрос короткого времени. Если ты не в курсе, то большая часть таджиков живет не в РФ :), а в Афганистане, где официальный язык тоже персидский, но по политическим причинам называется не фарси, а дари, ну это чтобы Персия не объявила Афганистан персидским миром и не начала завоевательные войны, хотя фактически: Иран, Афганистан, Таджикистан и юг Азербайджана — это всё историческая Персия, именно по этой причине там распространен и используется, несмотря на арабские завоевания, персидский язык.

Таджики — уникальный народ, их не нужно путать с кочевниками, например узбеками, киргизами, туркменами и т.п. Это остаток тех самых персов Персеполиса, царя Дария, зороастрим, Заратуштра вот это всё.

Я год прожил в Иране, сказка.

kep
()
Ответ на: комментарий от Shadow

На урду не говорят в Афганистане, ты перепутал с Пакистаном, это совсем другая страна, в Афгане официальный язык — дари, на нем говорит больше половины населения, еще треть населения говорит на пашто это тоже иранский язык («паштава» (parstava) — персидский в переводе). В общем смотришь на територию бывшей Персии (империи) и можешь не сомневаться, что там большинство говорит на персидскои или диалектах. Но здесь нужно сделать поправку для северного Азербайджана (кстати азербайджанцев в Иране больше, чем в самом Азербайджана), который тюркоязычный.

kep
()
Ответ на: комментарий от kep

кстати азербайджанцев в Иране больше, чем в самом Азербайджана

даже текущий высший руководитель (великий аятолла, не путать с президентом Рухани) Али Хаменеи, он же первый (нулевой) и самый могущественный человек в Иране — этнический азербайджанец.

kep
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.