LINUX.ORG.RU
ФорумTalks

Утечку с docs.google.com ещё не обсуждали?

 , информация должна быть свободной,


0

1

Яндекс проиндексировал docs.google.com. Утверждают, что из-за неправильных настроек в robots.txt. Когда это выяснилось, поиск по ним отключили.

Кто-нибудь что-нибудь интересное скачать успел?

★★★★★
Ответ на: комментарий от cvs-255

гугл и яндекс должны срочно прекратить индексировать этот тред?

Не срочно, а в соответствии со своим расписанием обхода. Ну и поищи здесь /talks заодно:

www.linux.org.ru/robots.txt

User-agent: *
Disallow: /edit.jsp
Disallow: /view-all.jsp
Disallow: /delete.jsp
Disallow: /add.jsp
Disallow: /add2.jsp
Disallow: /search.jsp
Disallow: /register.jsp
Disallow: /people/*/edit
Disallow: /lostpwd.jsp
Disallow: /login.jsp
Disallow: /logout
Disallow: /edit-boxes.jsp
Disallow: /add_comment.jsp
Disallow: /people/*/settings
Disallow: /edit_comment
Disallow: /comment-message.jsp
Disallow: /show-replies.jsp
Disallow: /user-filter
Disallow: /commit.jsp
Disallow: /delete_comment.jsp
Disallow: /addphoto.jsp
Disallow: /dw.jsp
Disallow: /activate.jsp
Disallow: /delete_image
Disallow: /add-section.jsp
Disallow: /api/

Disallow: /wiki/en/Special:History
Disallow: /wiki/en/Special:Setup
Disallow: /wiki/en/Special:Diff
Disallow: /wiki/en/Special:Logout
Disallow: /wiki/en/Special:Print

imul ★★★★★
()

Да скорее это даже не браузер, а деятельность категории людей вбивающих всё только в поле поиска

WDWTFWW
()
Ответ на: комментарий от cvs-255

А если я в этом треде выложу десяток своих паролей, то гугл и яндекс должны срочно прекратить индексировать этот тред?

Если их кто-то об этом попросит — могут. Могут просьбу проигнорировать, что вероятнее, так как ты — не их клиент.

question4 ★★★★★
() автор топика
Ответ на: комментарий от question4

Вот именно, что могут, а не должны.

Но если они продолжат индексировать, то никакой утечкой моих паролей это не будет. Т.к. утечка присходит не тогда, когда поисковик индексирует, а когда документ попадает в открытый доступ.

cvs-255 ★★★★★
()
Последнее исправление: cvs-255 (всего исправлений: 1)
Ответ на: комментарий от olegd

кажется, там куча ссылок на малварь специально для таких вот умников

wxw ★★★★★
()
Ответ на: комментарий от cvs-255

Я это уже здесь объяснил много раз. Это просто ты тупой.

imul ★★★★★
()
Ответ на: комментарий от cvs-255

robots.txt это лишь рекомендация.

Рекомендация которой роботы яндекса следуют.
А теперь подумай, почему роботы яндекса вдруг начали индексировать доксы гугля. Может у гугля что-то с robots.txt не то?

imul ★★★★★
()
Последнее исправление: imul (всего исправлений: 1)
Ответ на: комментарий от cvs-255

Выкладывай пароли. А то всё если, да кабы.
Ты знаком с тем, как в доксах гугла шарят документы и выставляют им права?

imul ★★★★★
()
Ответ на: комментарий от question4

Не ищет по site:docs.google.com.

Не понял, как это не ищет если ищет?

pi11 ★★★★★
()
Ответ на: комментарий от imul

гугл может устанавливать у себя совершенно любой robots.txt, какой ему только взбредет в голову. Или гугл где-то публично обещал, что гугл-доки обязательно будут в robots.txt? Если нет, то в чем проблема?

cvs-255 ★★★★★
()
Ответ на: комментарий от pi11

Я не знаю, ошибка, или нет. Я не работаю в гугле. Но, доступ к гуглодокам таков, что документ ты получаешь по ссылке. Есть у тебя правильная ссылка на документ — есть доступ, нет у тебя ссылки — нет доступа. А дальше всё как ранее здесь написано Утечку с docs.google.com ещё не обсуждали? (комментарий)
Опубликовал ты эту ссылку там, где до неё дотянулся робот, значит документ проиндексирован и его содержимое можно найти через поисковик. Если в robots.txt выставить дизаллоу, то роботы (соблюдающие правила) просто не будут этот документ индексировать. Поэтому странно, что это утечкой назвали — люди сами шарят свои файлы и раздают ссылки на них. И роботы потом эти файлы индексируют. Хотя, открытым доступом называть доступ к документу ошибочно, так как не имея в наличии точной ссылки на документ ты к нему доступа не получишь.

imul ★★★★★
()
Ответ на: комментарий от cvs-255

Тебя совсем куда-то не в ту степь понесло. Иди проспись.

Или гугл где-то публично обещал, что гугл-доки обязательно будут в robots.txt?

Внезапно, они уже там. Если отвечать на вопрос в твоей бредовой формулировке. Корректнее — да, у доксов есть robots.txt
docs.google.com/robots.txt

User-agent: *
Crawl-delay: 1
Allow: /$
Allow: /?hl=
Disallow: /?hl=*&
Allow: /support/
Allow: /a/
Allow: /Doc
Allow: /View
Allow: /ViewDoc
Allow: /present
Allow: /Present
Allow: /TeamPresent
Allow: /EmbedSlideshow
Allow: /presentation
Allow: /templates
Allow: /previewtemplate
Allow: /fileview
Allow: /gview
Allow: /viewer
Allow: /leaf
Allow: /file
Allow: /open
Allow: /document <------ обрати внимание
Allow: /drawings
Allow: /demo
Allow: /folder
Allow: /start
Allow: /spreadsheet
Allow: /forms
Allow: /macros
Allow: /keep
Allow: /static
Allow: /drive/
Disallow: /templateabuse
Disallow: /

А шареная ссылочка примерно такого вида:
https://docs.google.com/document/d/1Mj3prXT5-QHGkOQz3ufO4GdV0HYHmiKFRI31QQ8pC...

imul ★★★★★
()
Ответ на: комментарий от imul

Ну значит яндекс всего лишь проиндексировал то, что было в публичном доступе, хотя и в robots.txt. не вижу ничего плохого. Точно так же он мог бы индексировать всякие там страницы входа. Это исключительно его дело, что индексировать а что нет.

cvs-255 ★★★★★
()
Ответ на: комментарий от cvs-255

Ну значит яндекс всего лишь проиндексировал то, что было в публичном доступе

Да уж, каким же альтернативно одарённым нужно быть, чтобы назвать это публичным доступом — https://docs.google.com/document/d/1Mj3prXT5-QHGkOQz3ufO4GdV0HYHmiKFRI31QQ8pC...
Если такая ссылка не проиндексирована, или её тебе не прислали, или нет готового каталога таких ссылок, то как это можно назвать публичным доступом? Ссылку головой придумаешь?
И робот тоже просто так такую ссылку ниоткуда не возьмёт.

хотя и в robots.txt. не вижу ничего плохого

Я ведь даже стрелкой пометил, что можно интерпретировать как «плохое», которое привело к «утечке». А так-то да, робот не сделал ничего плохого, дизаллоу-то нет. Индексировать можно и нужно, чем собственно он и занялся.

Точно так же он мог бы индексировать всякие там страницы входа.

Не мог бы. В robots.txt у них стоит дизаллоу, а робот яндекса следует этим рекомендациям.

Это исключительно его дело, что индексировать а что нет.

Что индексировать, а что нет решает алгоритм по которому реализован обход робота (то есть решают разработчики), а в алгоритме заложено следование правилам в robots.txt.

imul ★★★★★
()
Ответ на: комментарий от imul

Ну вот ты сам и ответил - раз в robots.txt нет, то значит можно индексировать.ты

Может наконец назовешь причину почему не индексировать, если нет в robots.txt?

cvs-255 ★★★★★
()
Последнее исправление: cvs-255 (всего исправлений: 2)
Ответ на: комментарий от cvs-255

Может наконец назовешь причину почему не индексировать, если нет в robots.txt?

Потому что индексировать такие ссылки можно только при помощи анальных зондов у пользователей, которые отправляют все посещенные URL зондовладельцу.

derlafff ★★★★★
()
Ответ на: комментарий от derlafff

Ну это аргумент из серии 'я закопал деньги в лесу, а какие то нехорошие люди их откопали. Они не должны были это делать'

cvs-255 ★★★★★
()
Ответ на: комментарий от cvs-255

Ну понятно, что виноват не гугл, а яндекс.

Гугл просто не подумал, что кроме него есть еще отморозки, настолько нагло сливающие данные пользователей

derlafff ★★★★★
()
Ответ на: комментарий от cvs-255

Ага, нехорошие люди, но работающие по понятиям.

derlafff ★★★★★
()
Ответ на: комментарий от cvs-255

Ну вот ты сам и ответил - раз в robots.txt нет, то значит можно индексировать.ты

Утечку с docs.google.com ещё не обсуждали? (комментарий)
По идее эти файлы не должны индексировать поисковики.

Ты хотя бы понимаешь смысл написанного? Или так и будешь придумывать очередной бред, приписывать его мне и старательно опровергать очередной порцией бреда?

Может наконец назовешь причину почему не индексировать, если нет в robots.txt?

Чего нет? Я уже показал что есть. И сделано наоборот. Было бы дизаллоу — робот яндекса не стал бы индексировать. Сколько раз тебе нужно повторить, чтобы до тебя дошло?

imul ★★★★★
()
Ответ на: комментарий от derlafff

отправляют все посещенные URL зондовладельцу

Ну этим как раз гугол сильно грешит. Яндекс тоже? Вроде ссылки прямые у него в выдаче. Или нужно специальную сборочку ставить?

imul ★★★★★
()
Ответ на: комментарий от imul

если 1) adnausem блокирует всякие трекеры на самих сайтах 2) ты не пользуешься авто-дополнением поиска в адресной строке, то все ок

derlafff ★★★★★
()
Последнее исправление: derlafff (всего исправлений: 1)
Ответ на: комментарий от derlafff

Про гугл само собой — всё завёрнуто на них. В яндексе сейчас специально посмотрел — ссылки прямые. Если браузер сам не льёт (например какой-нибудь иридиум, или хмориум с аналогичными патчами) и нет дополнений со скрытой функциональностью, то откуда яндекс будет брать компромат?

imul ★★★★★
()
Ответ на: комментарий от derlafff

1) adanusen же наоборот, крикает по всему куда дотянется, чтобы сбивать таргетинг, а вот ворует ли это дополнение реальную историю я не знаю.
2) не пользуюсь

imul ★★★★★
()
Ответ на: комментарий от imul

то откуда яндекс будет брать компромат?

как раз из своего браузера и дополнений. ну мб яндекс-метрика тоже собирает, но там не так опасно

derlafff ★★★★★
()
Ответ на: комментарий от imul

Да потому что ты не пишешь внятно, а постоянно простыни про «не умеешь читать» пишешь.

Я пока вижу:

1) документов в robots.txt нет

2) яндекс проиндексировал эти документы

В чем проблема?

cvs-255 ★★★★★
()
Последнее исправление: cvs-255 (всего исправлений: 1)
Ответ на: комментарий от cvs-255

1) документов в robots.txt нет

Allow: /document <------ обрати внимание
Я же говорил, что нужно дизаллоу

2) яндекс проиндексировал эти документы

Да, потому что робот так и должен сделать, если ему где-то попадётся ссылка с гуглодоков

В чем проблема?

Проблема в том, что ты баран.

imul ★★★★★
()
Ответ на: комментарий от derlafff

как раз из своего браузера и дополнений

чур меня

imul ★★★★★
()
Ответ на: комментарий от imul

https://yandex.ru/legal/browser_agreement/
5.1. Пользователь настоящим уведомлен и соглашается, что при включении в Программе функции автоматической отправки статистики, Правообладателю целях предоставления соответствующих функций Программы, улучшения качества предоставляемых Пользователю продуктов и сервисов, в автоматическом режиме сообщается анонимная (без привязки к Пользователю) информация о посещаемом сайте, просматриваемой странице и загружаемых файлах

Там весь п.5 - один большой зонд.

KillTheCat ★★★★★
()
Ответ на: комментарий от imul

Я же говорил, что нужно дизаллоу

А, так дело, оказывается, в том, что гугл поставил не те разрешения, которые в твоем воспаленном мозгу мерещатся?

Гугл явно разрешил индексировать документы. Что там тебе кажется, что он не должен был этого делать - ну так это просто твои фантазии.

cvs-255 ★★★★★
()
Ответ на: комментарий от cvs-255

Дело в том, что любой документ, ссылка на который попадёт в общий доступ, будет индексироваться в соответствии с правилами в robots.txt
Поэтому непонятно почему яндекс убрал эти документы из поисковой выдачи, ведь всё сделано правильно. И тем более почему это назвали утечкой, ведь документы оказались в общем доступе. А что там мне якобы мерещится, не тебе с твоими куриными заменителями мозга судить.

imul ★★★★★
()
Ответ на: комментарий от imul

Поэтому непонятно почему яндекс убрал эти документы из поисковой выдачи, ведь всё сделано правильно

Ты мне тут с пеной у рта доказывал выше, что индексация этих документов - неправильно и в поисковой выдаче их не должно быть.

не тебе с твоими куриными заменителями мозга судить.

Давай ты прекратишь свои галлюцинации на меня проецировать?

cvs-255 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.