пищем google
Приветствую всех сочуствующих, а также примкнувщих.
предистория.
- через пару лет в ЦЕРНе стартует большая машина под назаванием LHC,
которая будет выдавать данные размером 12-14 PetaBytes в год.
Конечный пользователь (физик) будет работать с этими данными
ввиде mini-DST aka ROOT файлов. Пример здесь:
http://carrot.cern.ch/CarrotExamples/hsimple.root.
- вот тут-то становиться очень важен "учет и контроль".
Пользователь должен знать какая информация находится, где, и в
каких файлах.
"Традиционный подход" к решению этой задачи "прост" - создаем
файл каталог на основе realtional database.
Главный недостаток этого подхода - "некая статичность" и гипер-централизация.
При изменении любого файла, его перемешении, удалении и пр. -
все это должно отражаться в центральной базе данных. И Пользователь
должен информировать обо всех изменениях базу данных..
Есть и другие недостатки, но суть не в этом ...
проблема.
Хотелось бы иметь свой "google" "на уровне" одного сайта.
Т.е. иметь "blogger", crawler ... , который динамически отслежвает
"состояние", изменение сайта.
Зачем это нужно? Как видно из
http://carrot.cern.ch/CarrotExamples/hsimple.root?/3256058/ntuple;1/
ROOT файл - это просто набор HTML страниц.
Пользователям будет "позволено" менять, перемещать файлы
(в "web пространсве" ака между public_html subdirs) и пр.
"не информируя" об этом никакую базу данных.
База данных с помощью crawlera сама должна отслеживать эти
изменения.
Кто-нибудь сталкивался с решением подобной проблемы?
Заранее благадарю за любую помощь, ссылки.
Марк.
++
конечно, есть и другое применение всему этому -
динамическая репликация сайта.
Предварительное название проекта -
"ухо-горло-нос" или "анти-модератор" ;-)
Всем анонимным пациентам LORa - посвящается ;-)