LINUX.ORG.RU

Как проходить капчу из скрипта?

 , ,


0

3

Есть скрипт для рипанья сайтов. Для определённости — gallery-dl. Работает отлично. Но если сайт хостится на CloudFlare, и ему не нравится твой IP, появляется страница с капчой. Скрипт эту страницу проходить не умеет. Если пользоваться TOR-ом или популярным прокси, это происходит регулярно.

А может ли скрипт, получив страницу с запросом от CloudFlare, открыть её в браузере, чтобы пользователь ввёл всё, что надо, скрипт получил нужные куки и работал дальше? Где-нибудь это реализовано?

★★★★★
Ответ на: комментарий от cocucka_B_TECTE

Просто рипай через селениум, он тебе прямо браузер откроет и ты будешь видеть всё, что происходит. Но код придётся самому писать, это да.

gallery-dl тем хорош, что там вся структура сайта и возможные проблемы досконально изучены. Но Selenium, вроде, умеет работать с питоном, а значит можно их как-то скрестить.

Спасибо.

question4 ★★★★★
() автор топика
Ответ на: комментарий от question4

Там API открытая есть.

Процесс распознавания изображений и решения капчи состоит из нескольких простых шагов: Вы отправляете изображение на наш сервер. Сервер возвращает вам уникальный идентификатор вашей задачи (Captcha ID). Вы запускаете цикл, который проверяет, выполнена ли задача. Сервер возвращает вам результат распознавания.

Rossiks
()
Последнее исправление: Rossiks (всего исправлений: 4)
25 июня 2024 г.

Вот что-то для скачивания с Cloudflare, обходящее капчу:
https://github.com/pyload/pyload
https://github.com/VeNoMouS/cloudscraper
https://github.com/dipu-bd/lightnovel-crawler
Не пробовал.

P.S. Узнал о них из новости об уязвимости: https://www.opennet.ru/opennews/art.shtml?num=61421 Скоро использовать их станет опасно.

olegd ★★★
()
Последнее исправление: olegd (всего исправлений: 1)