LINUX.ORG.RU
ФорумAdmin

Как бороться с парсерами


0

1

У нас портал. На нем обьявления.
И возникает ситуация когда конкуренты начинают парсить скриптами сайт и копипастить обьявления.
поставил в настройках nginx

http {
.....
 limit_req_zone $binary_remote_addr zone=one:5m rate=25r/s;
 limit_zone two $binary_remote_addr  1m;
.....

server {
        listen 80;
......
limit_req zone=one burst=35 nodelay;
limit_conn   two  5;
Но не помогло. Вчера была такая картина
Айпи                 Время                         Хиты
93.126.72.176   20:28:07 - 20:28:07 1
93.126.72.176   20:28:06 - 20:28:06 1
93.126.72.176   20:28:05 - 20:28:05 1
93.126.72.176   20:28:05 - 20:28:05 1
93.126.72.176   20:28:04 - 20:28:04 1
93.126.72.176   20:28:04 - 20:28:04 1
93.126.72.176   20:28:04 - 20:28:04 1
93.126.72.176   20:28:03 - 20:28:03 1
93.126.72.176   20:28:02 - 20:28:02 1
....
93.126.72.176   20:26:52 - 20:26:52 1
93.126.72.176   20:26:51 - 20:26:51 1
93.126.72.176   20:26:51 - 20:26:51 1
93.126.72.176   20:26:51 - 20:26:51 1
Тоесть с этого айпи каждую секунду происходит одно соединение.
Понятно что это не человек.
Подскажите как с таким боротся? Возможно я неверно указал настройки? Или это не силами nginx делается?
Возможно ли отсечь подобное средствами IPTABLES ? Если да, подскажите пример пожалуйста.

Хинт: подавляющее большинство ботов не скачивают картинки. Я тупо скриптом мочил все адреса которые скачивают только динамику.

true_admin ★★★★★
()
Ответ на: комментарий от true_admin

А это смотря какие объявления. Есть объявления, которые парсят сугубо с картинками. Те же автомобили и пр.

tanenn
()

используй жабаскрипт

правда и его можно интерпретировать, но это нужно будет апгрейдить ботов.

anonymous
()

А ты смотри с каких ипов парсят. Не думаю что их ну настолько много. И отдавай им немного другие объявления. Например банально заменив все «е» на «э». Или поменяв цены. Или... Полет фантазии не ограничен.

anonymous
()

мои боты работают в точности как люди - специально сделал статистику, что-бы посмотреть, как я сам прыгаю по сайтам. конечно использование $RAND приветствуется (поддерживаются программами wget && curl, там это встроено). Картинки мои боты тоже качают. В UserAgent написано естественно Microsoft Windows IE. Ну и прочее... Лично я не не знаю, каким образом отличить меня от моего бота. Админы тоже (не банят ведь).

drBatty ★★
()
Ответ на: комментарий от anonymous

>правда и его можно интерпретировать, но это нужно будет апгрейдить ботов.

угу. а ещё Ъ в пролёте.

drBatty ★★
()
Ответ на: комментарий от anonymous

>А ты смотри с каких ипов парсят. Не думаю что их ну настолько много. И отдавай им немного другие объявления. Например банально заменив все «е» на «э». Или поменяв цены. Или... Полет фантазии не ограничен.

с динамических. Петербург, Авангард. Попробуй забань пол-Питера...

drBatty ★★
()
Ответ на: комментарий от derlafff

пожалей Ъ, которые серфят без картинок

Это значит что они и рекламу не смотрят, а значит не интересны. Шутка.

true_admin ★★★★★
()
Ответ на: комментарий от tanenn

Конечно, чем более продвинутый бот тем сложнее его засечь. Я вижу в треде есть ботописатели, на всякий случай не буду всего рассказывать :)

true_admin ★★★★★
()
Ответ на: комментарий от drBatty

Да сколько угодно. iptables, если запросы идут сплошными потоками (recent) - просто редиректишь их немного на другой порт.

anonymous
()
Ответ на: комментарий от true_admin

>Конечно, чем более продвинутый бот тем сложнее его засечь. Я вижу в треде есть ботописатели, на всякий случай не буду всего рассказывать :)

а рассказать-то и особо нечего - что-то я не встречал ничего сложнее скрипта который ловит заходы «каждую секунду». оно от ботнетов спасает только...

drBatty ★★
()
Ответ на: комментарий от I00matolog

man iptables / recent

Allows you to dynamically create a list of IP addresses and then match against that list in a few different ways.

For example, you can create a «badguy» list out of people attempting to connect to port 139 on your firewall and then DROP all future packets from them without considering them.

anonymous
()

С парсерами можно бороться как алекса раньше делала: загаживай объявления невидимым мусором.

А то, что ты говоришь это тупо банить по ip. Мало эффективно. Айпишники сейчас дешевые. Да и придется тебе составлять базы проксей, торов и пр.

soomrack ★★★★★
()

если ты предоставляешь информацию публично, никак. мало того что свое время потеряешь. так из за тебя еще и ботописатель будет свое время тратить, а это уже более оплачиваемое время более умного человека чем ты.

paranormal ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.