Распределенный гугль.

0

0

Навеяно этим: http://www.linux.org.ru/news/opensource/5342584

Вот все переживают, мол гугль знает о нас всю информацию, которую только может. И нет, типа, возможности реализовать такого же уровня инфраструктуру, которая смогла бы победить гугль.

Но если за модель взять распределенную систему (с открытым кодом, ессно), в которой роль ботов-пауков, собирающих данные, будет выполнять некая надстройка над броузером у пользователей этой системы(зашел на страницу — робот тоже зашел, но без авторизации, если таковая была), а собраные данные будут храниться на винтах пользователей. плюс система в момент простоя компьютера может немного пошариться по инету в поисках новых ссылок. локальные кусочки выстраиваются в единую иерархию и составляют общую базу проекта, из которой при поиске извлекается нужная информация.

при определенном количестве пользователей такая система сможет стать вполне конкурентной гуглу и не иметь негативных последствий.

Ссылка

←	PROMT Translation Server портируют на Linux

[ДР][Linux]В этот день 19 лет назад...

→

http://ru.wikipedia.org/wiki/Majestic-12

~~KRoN73~~ ★★★★★
(17.09.10 05:00:07 MSD)

Ответ на: комментарий от KRoN73 17.09.10 05:00:07 MSD

здорово, спасибо!

Ingwar ★★★★★
(17.09.10 05:10:53 MSD) автор топика

Ссылка

Ответ на: комментарий от KRoN73 17.09.10 05:00:07 MSD

проект проприетарный, сорцев нет, фи.

может они, пока я сплю, атомную бомбу расчитывают.

Ingwar ★★★★★
(17.09.10 05:22:12 MSD) автор топика

Ссылка

> локальные кусочки выстраиваются в единую иерархию и составляют общую базу проекта, из которой при поиске извлекается нужная информация.

Вот здесь-то и засада. Как вы обеспечите _быстрое_ «извлечение нужной информации»?

~~anonymous-kun~~
(17.09.10 06:52:16 MSD)

Ответ на: комментарий от anonymous-kun 17.09.10 06:52:16 MSD

встречный вопрос:

почему торренты скачиваются быстрее, чем файлы по ftp/http?

Ingwar ★★★★★
(17.09.10 07:24:42 MSD) автор топика

А где гарантии, что злой дяденька, знающий протокол не залезет и не скачает страницы, что вы вручную проиндексировали?

derlafff ★★★★★
(17.09.10 07:27:12 MSD)

Ответ на: комментарий от Ingwar 17.09.10 07:24:42 MSD

Здесь проблема в том, что нужен быстрый отклик при поступлении нового уникального запроса. Но, похоже, её уже решили - YaCy и Sciencenet работают. Кто-нибудь пробовал, какие впечатления?

~~anonymous-kun~~
(17.09.10 08:30:05 MSD)

Ссылка

Планы подобной штуке витают в воздухе с конца 90х. Думаю есть немало приличных проектов которым не хватает пиара. Не понимаю, кстати, почему слоупочит FSF, должны же они понимать какую опасность представляет концентрирование гигантского объема информации в одних руках.

DNA_Seq ★★☆☆☆
(17.09.10 10:40:20 MSD)

Ссылка

Ответ на: комментарий от Ingwar 17.09.10 07:24:42 MSD

потому что много потоков. Торрент по dht без трекера раскочегаривается 2-3 минуты. Готов столько ждать результатов поиска?

DNA_Seq ★★☆☆☆
(17.09.10 11:13:22 MSD)

Ответ на: комментарий от derlafff 17.09.10 07:27:12 MSD

>А где гарантии, что злой дяденька, знающий протокол не залезет и не скачает страницы, что вы вручную проиндексировали?

а зачем ему это если их можно взять из инета?

DNA_Seq ★★☆☆☆
(17.09.10 11:14:03 MSD)