LINUX.ORG.RU
ФорумAdmin

Поднять локальную копию Интернета

 , , , ,


1

2

Есть лютая-бешеная идея, но я думаю, что реализовать довольно трудно.
Суть в том, чтобы создать локальную копию малой части Интернета, каким он был, например, в 1998 году.
Во-первых, нужно найти копии разных сайтов того времени. Обслуживать все эти сайты сможет один nginx. Во-вторых, нужно создать свой маленький dns для всех этих сайтов.
Главная проблема в том, что у сайтов есть (была) ещё и серверная часть, которой никто делиться не будет. Т.е. воспроизвести внешний вид гугла можно, а вот работу — нет (нужен ещё генератор страниц и база данных).
Будет очень круто запустить такой «ретро-интернет». Например, запускаешь старый пеньтиум, подключаешь муляж модема, грузишь странички, какими они были раньше и радуешься. Ну или в виртуалку поставил вендовоз95, скачал IE, а там тебе стартовой страницей msn.com образца 95 года. Красота! Ностальгия!
Как идея? Взлетит?

★★★★★

Была такая идея. Взять какой-то прокси-сервер типа wwwoffle, или написать свой. И дописать так, чтобы поддерживались «версии» документов, страниц сайта.

То есть, в обычном squid например, есть offline режим, который работает так:

если в offline режиме, то выдаём старую версию страницы;

если в online режиме, то проверяем во «внешнем» инете, есть ли более новая версия страницы, и если есть, то выдаём её;

иначе берём из кеша;

иначе (в кеше нет и не можем достучаться до внешней сети) — страничка с ошибкой прокси-сервера.

А хочется примерно такой алгоритм:

если в offline режиме, то выдаём последнюю версию из кеша;

если в online режиме, то если связь с внешним инетом есть, то проверяем страницу на обновления (ETag и т.п.); если изменилась, заносим НОВУЮ ВЕРСИЮ в кеш, сохраняя N старых версий;

если не изменилась, то берём последнюю версию из кеша;

(!!)если нет доступа к сети в online режиме, то берём последнюю версию из кеша

иначе, если нет в кеше, нет в архиве последней версии и нет связи — выдаём страничку с ошибкой прокси-сервера, или ставим в очередь при след. online режиме

Плюс чтобы это всё автоматически индексировалось для локального поисковика, плюс какая-то «аннотированная» ФС с тегами и категориями и автоматическими правилами, чтобы автоматом раскладывалось.

А странички в кеше чтобы было можно «прикрепить»: то есть, например, версии всех страничек «интересных» принудительно сохранять, и чтобы прокси мог откатиться на любую версию, на нужный срез времени.

например, что-то наподобие gitfs, только под gitfs ложить кеш прокси-сервера, например, в tmpfs с копированием в архивную нормальную ФС через rsync.

или, хоть в какую-то MUMPS-подобную БД запихнуть странички.

ведь контент примерно одинаковый. например, если сохранять через Scrapbook в файрфоксе 3 странички этого топика, то в каждой копии мы увидим копии файлов с картинками, скприптами, ХТМЛ целиком.

а можно было бы сгенерировать что-то типа mhtml «на лету»:

то есть, страничка при сохранении разбивается на компоненты (картинки, скрипты, запчасти). Компоненты ложатся в базу, адресуемы по SHA1 от контента компонента (CAM-память, content addressable memory. см. например, http://camlistore.org на Go).

затем, к базе присобачивается FUSE-модуль, который монтируется куда-нибудь в /camfs/lor/thispage/thispage.{jpg,htm,js,...}

при запросе через FUSE по этому пути лезем в базу и составляем выдачу из компонентов.

то есть, thispage.htm — это может быть такой mhtml, который конструируется из запчастей, которые лежат в базе. а запчасти лежат в CAM памяти в единственном экземпляре, и когда мы сохраним эту страничку 2 раза, то общие запчасти переиспользуются. В идеале, если добавится новый пост, то достаточно и добавить только diff.

ну и какая-то штука чтобы конструировать «текущий» view по дифам.

или что-то наподобие gitfs.

такой штуки пока нет, это в планах написать такое. поверх этого запустить например gittorrent, и обмениваться диффами между всеми участниками такого интернета.

anonymous
()
Ответ на: комментарий от anonymous

Это был бы распределённый интернет, удобный, быстрый, полезный. Только беда в тех местах, где нужно моментальное обновление (вебсокеты, например) и тех, кто будет отдавать старые версии страниц.

CYB3R ★★★★★
() автор топика
Ответ на: комментарий от anonymous

oh, no!! they killed the internets

ещё в ту же идею.

да, мы потеряли интернет.

старый нет был в первую очередь, информативным. во-вторую, это минимум ресурсов и разумное потребление памяти/процессорных циклов браузером, множество протоколов, каждый из которых лучше подходил для своей задачи.

сначала oh, no, they killed browsers.

вместо простой примитивной смотрелки для чтения многабукв современный браузер превращается в сраный комбайн, который пердит, свистит, читает почту, rss, качает торенты, и видео и да, между делом иногда всё-ттаки ещё показывает буквы.

браузеры пали жертвой в войне браузеров. вместо правильной архитектуры самого браузера (подробнее здесь или скорее вот здесь) cейчас мы имеем комбайны, которые делают что угодно, только не свою собственную работу — показывать многабуквы с минимумом потребления ресурсов.

попробуйте-ка запустить в той же Жопере 1500 вкладок одновременно. у меня 16Гб памяти и ещё 16Гб в свопе, браузер и система 64-битная, так какого же хрена это чудо падает, когда отъедает примерно 10 Гб по памяти и тыщупиццот процентов CPU?

а мне так удобно было клацать кнопками 1,2 по табам и нажимать fit to width\user/site mode.

хромой пытается компартментировать это всё по отдельным процессам, но это тоже не метод, ведь эти процессы почему-то дохнут.

всё это от безблагодатности того, что браузер делает чужую работу: вместо кеширования прокси-сервером он тупо жрёт память, вместо отдельных апплетов/плагинов/процессов кривой флешъ жрёт процессор, вместо закачки и обновления у него хитрая логика в кривой реализации многопоточности.

потом, они убили веб. как-то внезапно и незаметно вместо информативных многобукв и простых стандартных форматов с семантической разметкой у нас появилось огламуривание и свистопердение в смотрелках, и куча костылей quirks в реализации самой смотрелки.

ах, да, контент стал богатым и самого контенту разом нам богато. и теперь вместо контента информационного каждый веб-ломастер клепает себе флеши, скрипты, адблоки, спамы, куки, трояны.. :)

причём, зарезав адблоком или проксиком всё это адово безобразие половина функциональности не работает.

они убили веб!!!

и вместо организации своего информационного пространства на нас вывали огламуренные социосети где и шагу не сделаешь без регистраций бесплатно без смс, спамов, куков, и прочая.

это большой шаг назад. у нас был большой социальный интерактив на мейнфреймах, wall $user, мудах, ирках и юзнетах с фидонетами.

и это жрало в 10500 меньше ресурсов.

они все виновны в убийстве наших интернетов своими гламурными веб 2.0, и наш ответ им — антивеб, этот, этот или даже этот

anonymous
()
Ответ на: oh, no!! they killed the internets от anonymous

кто виноват

веб изначальный был множеством протоколов, и конвертиков, в которых ходили простые, незамутнённые мессаги с многобуквами и мякотным контентом.

современное же увёбище 2.0 уже что-то другое, обло, стоглаво и лаять.

не с точки зрения сложности, а с точки зрения нагруженности клиента, но не сервера. при этом клиент всё на столько же туп и настолько же не понимает содержимое контента, как и 20 лет назад.

попытка впихнуть в браузер невпихуемое изначально порочна. нужно пилить сервер, а не клиент, оставляя клиента максимально простым и независимым от протоколов.

plan 9 и грамотное программирование с reproducible research-ем пыталися исправить это. теоретически, ксанаду с трансклюзией, но о пустышках-покойниках или хорошо, или никак-никак. аугмент с purple numbers тоже пытался, но об трупиках просто никак.

вместо убогой изначально идеи впихнуть всё в единое-на-всех one size fits all адресное пространство, онтологию и URIнотерапию по образу файловой системы Plan9 выдавал идею в правильном направлении: множественные пространства имён и файловая система как протокол взаимодействия.

это полезно не только для мультиплексирования ресурсов, но и для унификации онтологий.

то, что семантически веб нам обещал, но так и не сделал.

anonymous
()
Ответ на: кто виноват от anonymous

и что с этим делать

вместо физического веба, скалькированного с физической ФС нам нужен веб семантический. но не в смысле подхода Архитектора нашей матрицы с RDF, онтологиями и веб-сервисами с интеллектуальными мультиагентами.

а в смысле переосмысления физической ФС на семантическую ФС, с тегами и категориями, и шизоидными множественными пространствами имён в мёртвых трешъ-зайцах.

семантическая ФС с тегами и категориями и фс как протокол могла бы заменять нам базу данных, /dev/console, /dev/window, /dev/mouse, /proc/... /acme/commands/FOOBAR/ctl

такая ФС была бы по сути не зависима от протокола, по которому ходят конверты с мессагами.

не конверты, а мессидж. не бутылки, а вино из бутылок.

веб как транспорт должен не зависить от веба как клиента.

нам пофиг, пришла мессага по HTTP, RSS, NNTP, XMPP или 9p.

например, вот такая архитектура:

Можно предположить, что компьютерная система, которая предоставит для всех видов сообщений единообразное хранилище (атрибуты у всех видов сообщений одни и те же) и полноценного поддержку самого универсального из существующих протоколов, сможет легко адаптироваться к любым способам использования и протоколам (включая еще не изобретенные), рассматривая их как подмножество функций, упрощение, «срез» базового функционала. И заодно даст доступ ко всем сообщениям всех типов всеми существующими протоколами одновременно, что может породить качественно новые,более эффективные средства групповой работы, не сковывая пользователей ни узким набором совместимого клиентского программного обеспечения, ни «предпочтительным» способом доступа/использования хранимой информации. Эта масштабная задача была поставлена в «манифесте Eserv/3» в 2000м году, но реально получает своё воплощение в Eserv/4, спустя еще 8 лет работы над проектом.

сюда же, можно добавить старый-древний грамотный программинг, воспроизводимый ричёрчинг и новомодные вики, в том числе и семантические. как пример, Emacs org-mode.

anonymous
()
Ответ на: и что с этим делать от anonymous

более того, такая семантическая ФС должна быть аннотируемой, и тегируемой.

она должна автоматически поддерживать дедубликацию данных на уровне блобов , и разграничение по новостiйности, актуальности самих данных.

в семантической ФС хранятся не файлы-блобы, а файлы-объекты. объекты имеют структуру, нечто вроде compound файлов из виндового IStream или макинтошевского файла с форками.

то есть, файлы составные состоят из метаданных и элементарных блобов.

на уровне «элементарных блобов» работает дедубликация, например как gitfs или plan9 fossil/venti:

блоб это файл в /blobs/SHA1sum(контент_блоба).

ещё у файла есть несколько метаданных

собственно путь в каталоге — одно из таких метаданных. физический путь

ещё может быть логический путь, то есть аналог множественных пространств имён в Plan9 (см. ... /proc/.../acme/commands/FOOBAR/ctl)

контент может выдаваться по запросу его логического пути.

а вместо API событий «веб-сервисов» внутре у неё неонка — Inotity, и т.п.

это всё скрывает запросы к внешним базам данных, например.

другие виды метаданных — теги и категории и описание структуры составных документов.

anonymous
()
Ответ на: комментарий от anonymous

собственно сам новый антивеб при таком подходе представляет собой:

- тупую программу смотрелку файлов с семантической ФС

- FUSE-модули с событиями по логическому пути

* протоколочиталку (расконверчиватель)

* качалку

* проксик

* хранилку

* тегалку с категориями, аннотилку

* движок правил, по которому автоматически теги с категориями могут вычисляться. для этого составной документ может при нужде распарсиваться принудительно, и если датамайнинг чего-то намайнил включённым правилом — запускаться дальнейшая обработка, плагином.

собственно мессаги должны стать независимыми от конвертов и протоколов. от дазы банных, от способа хранения и реализации такой «семантической ФС»

все обычные программы будут «из коробки» работать с такими файлами из антивеба.

вся скучная обработка будет запрограммирована в правилах. plumbing из Plan9 во все поля, автоматический и роботами.

потом подписываем этот контент своими теплыми ламповыми душевными именами (как говорил китайский чиновник, начинать надо с исправления имён).

аннотируем метаданные, вручную или автоматическими правилами.

и — профит.

а хранить «семантическую ФС» в BitTorrent Sync облаке.

не зависеть от протоколов

не зависеть от конвертов

не зависеть от «физических» путей и имён, только от логических

снизу — старые файловые процессы и приложения
сверху — движок правил и робаты с социалками.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.