LINUX.ORG.RU
ФорумAdmin

гугловский бот сошёл с ума


0

2

в последние пару дней стал замечать что сайт (небольшой, но под него свой сервер 16gb ram, X5650) стал дико напрягаться (искл-но cpu:system>70% из-за httpd). вплоть до 502. нгинкс и мускуль не парятся вовсе, а вот апаче...

вообще полез смотреть наиболее активные ip в моменты такой нагруки, и что же я вижу - больше 70% - гугловские адреса. 74.125.x.y. так понимаю - их боты. НО! robots.txt настроен, и он явно указывает чтобы бот между запросами страниц выжидал 5 сек. и тем не менее не помогло. бан подсетки гугла решает проблему мгновенно...стоит разбанить - и через 1-12 часов всё возобновляется, вне зависимости от времени суток.

Вообщем кто сталкивался, как решали, ваши идеи.

залогиниться в гугол вебмастер тузл и примусово понизить посещаемость вашего сайта ботом.

AGUtilities ★★★
()
Ответ на: комментарий от AGUtilities

74.125.x.y принадлежит гуглу, тем нее менее в юзер-агент «Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; InfoPath.2)»

поисковый бот всё же пишет что это googlebot.

loginrl103
() автор топика
Ответ на: комментарий от anonymous

можно поподробнее? как оно повлияет на понижение выдачи? неужели ещё есть провайдеры не блокирующие спуффинг?

loginrl103
() автор топика
Ответ на: комментарий от loginrl103

Это лишь моё предположение, основанное на том, что тебе понадобится забанить гугло-адреса, что не даст индексировать твой сайт.

anonymous
()
Ответ на: комментарий от anonymous

> Атака с использованием spuff-ip для понижения выдачи твоего сайта гуглом. Очевидно же.

spuff-ip по определению не работает для tcp handshake. Очевидно же.

anonymous
()
Ответ на: комментарий от anonymous

дада, тоже не понял причём тут спуффинг, до полного коннекта оно бы не дошло.

и так вопрос всё тот же - какого хера гугловсие адреса так яро долбятся на сайт. может их заботали?)

loginrl103
() автор топика

искл-но cpu:system>70%

Похоже что у тебя проблемы с системой и гугл тут ни при чём.

Для начала убедись что гугл реально шлёт тебе кучу запросов. Мне кажется что у тебя тупо сервак глючит. В первую очередь dmesg глянь.

true_admin ★★★★★
()
Ответ на: комментарий от true_admin

это openvz. статика отдаётся nginx-ом напрямуюю что значит систему глючит? система работает нормально, проблема в создаваемой апачем нагрузки. был бы iowait высоуйи - там ещё ладно, можно было бы всё закешировать, ноу проблем. но когда на каждом из 24 ядер (под виртуалку отданы все ядра, используется cpuuints, конкурирующих вирталок нету) под sy уходит 30-50%...это как-то того, не нормально.

в багда...dmesg всё спокойно

loginrl103
() автор топика
Ответ на: комментарий от loginrl103

это как-то того, не нормально.

именно про это я и говорю. И вполне возможно что сайт кривой и делает слишком много системных вызовов.

Или, второй вариант, что-то не то с openvz и он создаёт большой оверхед, но я в этом не силён. Так с каким рейтом боты шлют запросы? Может там на фаерволе правил много?

Короче, я бы попытался воспроизвести проблему руками и от этого уже отталкивался.

true_admin ★★★★★
()
Ответ на: комментарий от true_admin

скрипты не делают много системных вызовов, их делает в основном мускуль, и апач. сами скрипты особо не парят, ибо userspace <30%.

у openvz оверхед крайне низкий, наврядли что он.

файер не причём. сетевая нагрузка копеечная.

чтобы вопроизвести проблему нужно знать на что она влияет, а то замкнутый круг получается

loginrl103
() автор топика
Ответ на: комментарий от loginrl103

чтобы вопроизвести проблему нужно знать на что она влияет

повтори запросы которыё шлют боты. Может это вообще ни при чём и нагрузка вызвана каким-нить паразитным трафиком(например, одновременным флудом).

true_admin ★★★★★
()
Ответ на: комментарий от true_admin

не подскажете средство посредством которого это можа сделать? ну чтобы тайминги соблюдать (не всем же скопом слать), а также post/get...

loginrl103
() автор топика
Ответ на: комментарий от loginrl103

Да чем угодно, хотя бы ab(apache bench) из apache2-utils. Более продвинутые тулзые рекомендовать не буду потому что сам ими не пользуюсь. Можешь посмотреть на tsung какой-нить если интересно.

а также post

O_O с каких это пор вебкраулеры POST шлют? Это точно не гугл.

true_admin ★★★★★
()

Хммм. Сталкивался как раз недавно мой знакомый с такой проблемой. (Я кго консультировал по админской части на эту тему). Гуглобот очень активно нагружает сайт когда индексирует. При чем именно апач. И возникла проблема недавно - до этого сайта было все в порядке.

По описанию - один в один как у вас симтоматика.

Решали в сущности пока никак :D То есть перенесли на сервер мощнее а то на более слабом сайт сервер вырубал.

kernel ★★☆
()
Ответ на: комментарий от kernel

гуглобот был виден именно по юзер агенту? или то же по принадлежности ip?

loginrl103
() автор топика

ну так выдайте лимиты именно адресам с которых флудят, и индекс будет идти и ложить сервер не будет.

psv1967 ★★★★★
()
Ответ на: offtop от darkshvein

во-общем проблема решена. как говорится - хозяйке на заметку.

дело было не в ботах а...в сессиях. точнее - в проценте проверок этих самых сессий. так как сессий порядка 200к, а процент проверок стоял 5% ,те при каждом 20 запросе пхп начинал искать старые сессии для удаления, так как файлов-сессий порядка 200к, а проверка atime при каждом 20-м запросе...nuff said как говорится.

уменьшил процент до 5/100000 и всё нормализовалось.

loginrl103
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.