LINUX.ORG.RU
ФорумAdmin

googlebot ломится на страницу авторизации пользователя сайта


0

1

Здравствуйте, ребята!
Сегодня в статистике посещений моего сайта заметил странное поведение googlebot'a: пройдя несколько страниц сайта он начал долбить (заходить с периодичностью 1 раз в 3-4 минуты) страницу авторизации пользователя сайта. Совершил несколько десятков заходов именно на эту страницу и больше никуда, пока я не выключил сервер (он еще не в рабочем режиме).
Что это может означать?


Ответ на: комментарий от gnunixon

Да, сайт еще не настраивался, в том числе и robots.txt .
Можно в двух словах - что именно ему не нравится на этой странице, зачем запрещать ботам обход страниц авторизации?

als777
() автор топика

Это может означать, например, что это никакой не гуглбот а поделие нехороших людей.

invokercd ★★★★
()
Ответ на: комментарий от hope13

Понятно, что в индексе сайта эта страница никому не нужна.
Но что гуглботу нужно от этой страницы? Зачем он ее долбит?

als777
() автор топика
Ответ на: комментарий от als777

возможно при открытии страниц где требуется авторизация стоит пере адресация на форму ввода имени и пароля?

PaulAS
()
Ответ на: комментарий от PaulAS

Возможно. Сейчас нет сайта под рукой - завтра гляну.
Спасибо за идею.

als777
() автор топика
Ответ на: комментарий от als777

Кстати, забыл сказать, что у меня была ситуация когда подобные 'гуглботы' досили один сайтик, благо они были кривыми и запущены с одной подсети (или даже ip, точно не помню).

invokercd ★★★★
()

Вероятнее всего, бот встречает ссылки на странице, где требуется аутентификация пользователя, и его редиректит на страницу входа.

Чтобы этого не было, ставь таким ссылкам rel=nofollow и в роботс ничего писать не потребуется.

Apple-ch ★★
()
Ответ на: комментарий от Apple-ch

Чтобы этого не было, ставь таким ссылкам rel=nofollow и в роботс ничего писать не потребуется.

С таким указанием Гуглобот не будет учитывать ссылку в pagerank'ах, но ходить по ней это ему не запретит. Запретить можно только в robots.txt

Во всех остальных случаях ходить будет всюду, даже по генерируемым через JS ссылкам, «прикидываясь» нормальным браузером.

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

Во всех остальных случаях ходить будет всюду

Не стоит быть столь категоричным :)

Если верить документации, то гуглобот как раз не должен ходить по ноуфоллоу, хотя когда я проводил эксперименты, он то ходил, то нет. Поведение бота меняется часто, впрочем.

Мой пойнт в том, что закрывать форму логина от ботов, пожалуй, не стоит. А если причина частого захода на эту страницу в большом количестве «закрытых» ссылок, то ноуфоллоу почти наверняка поможет. Ну или в сайтмапе можно указать, что эта страница меняется нечасто и имеет низкий приоритет.

Apple-ch ★★
()
Ответ на: комментарий от Apple-ch

Не стоит быть столь категоричным :)

Просто у меня практика, так сказать :) Ходит.

А если причина частого захода на эту страницу в большом количестве «закрытых» ссылок, то ноуфоллоу почти наверняка поможет.

Всё равно robots.txt для этого лучше работает. Его игнорируют только совсем левые боты. Я так на такие часто прямо ловушку ставлю. В тексте страницы запретная скрытая ссылка, а в robots.txt указано Disallow. Кто сунулся — ССЗБ. Кстати, порой так палятся боты, прикидывающиеся обычным браузером.

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

Я так на такие часто прямо ловушку ставлю. В тексте страницы запретная скрытая ссылка, а в robots.txt указано Disallow. Кто сунулся — ССЗБ. Кстати, порой так палятся боты, прикидывающиеся обычным браузером.

о, спасибо за идею

PaulAS
()
Ответ на: комментарий от KRoN73

А мне кстати всегда было интересно, насколько поумнели боты, собирающие почтовые адреса (они у меня обфусцированы с помощью java, и тупой бот не сможет его прочитать). Хотя можно конечно в изображение засунуть.

invokercd ★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.