LINUX.ORG.RU
решено ФорумTalks

Распределенный гугль.


0

0

Навеяно этим: http://www.linux.org.ru/news/opensource/5342584

Вот все переживают, мол гугль знает о нас всю информацию, которую только может. И нет, типа, возможности реализовать такого же уровня инфраструктуру, которая смогла бы победить гугль.

Но если за модель взять распределенную систему (с открытым кодом, ессно), в которой роль ботов-пауков, собирающих данные, будет выполнять некая надстройка над броузером у пользователей этой системы(зашел на страницу — робот тоже зашел, но без авторизации, если таковая была), а собраные данные будут храниться на винтах пользователей. плюс система в момент простоя компьютера может немного пошариться по инету в поисках новых ссылок. локальные кусочки выстраиваются в единую иерархию и составляют общую базу проекта, из которой при поиске извлекается нужная информация.

при определенном количестве пользователей такая система сможет стать вполне конкурентной гуглу и не иметь негативных последствий.

★★★★★

Ответ на: комментарий от KRoN73

проект проприетарный, сорцев нет, фи.

может они, пока я сплю, атомную бомбу расчитывают.

Ingwar ★★★★★
() автор топика

> локальные кусочки выстраиваются в единую иерархию и составляют общую базу проекта, из которой при поиске извлекается нужная информация.

Вот здесь-то и засада. Как вы обеспечите _быстрое_ «извлечение нужной информации»?

anonymous-kun
()

А где гарантии, что злой дяденька, знающий протокол не залезет и не скачает страницы, что вы вручную проиндексировали?

derlafff ★★★★★
()
Ответ на: комментарий от Ingwar

Здесь проблема в том, что нужен быстрый отклик при поступлении нового уникального запроса. Но, похоже, её уже решили - YaCy и Sciencenet работают. Кто-нибудь пробовал, какие впечатления?

anonymous-kun
()

Планы подобной штуке витают в воздухе с конца 90х. Думаю есть немало приличных проектов которым не хватает пиара. Не понимаю, кстати, почему слоупочит FSF, должны же они понимать какую опасность представляет концентрирование гигантского объема информации в одних руках.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от Ingwar

потому что много потоков. Торрент по dht без трекера раскочегаривается 2-3 минуты. Готов столько ждать результатов поиска?

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от derlafff

>А где гарантии, что злой дяденька, знающий протокол не залезет и не скачает страницы, что вы вручную проиндексировали?

а зачем ему это если их можно взять из инета?

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от vasaka

даже еще точнее - магнет ссылки без трекера.

vasaka ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.