Проект по большому счёту никому не нужен и легко задавливается гуглом.
Форумный поисковик. У гугла уже есть «искать по обсуждениям».
Назначение - искать сообщения на форумах. В основе лежит программа, умеющая с HTML-страницы с сообщениями форума достать эти сообщения в виде отдельных plain-text кусков. Каждое сообщение будет выглядеть как структура - само сообщение, автор, ссылка на профиль автора, время, и т.п. Со страницы списка топиков форума программа достаёт список топиков в виде списка строк.
Делается приложение клиент и сервер. Сервер устанавливается у нас, а клиент (для винды и линукса) свободно распространяется. Работа наподобии проекта «majestic12».
Клиент делает запрос на сервер, получает адрес конкретной страницы, скрипт на языке tagstractor (http://ymap.org/prog/tt/) для её обработки и список переменных, которые сервер ждёт от него после обработки. Тэгстрактор это или нет - пофиг, хоть регэкспы, суть не в этом.
Клиент имеет собственную БД с пом. которой умеет отправлять на сервер только новые данные. Хотя, это можно считать преждевременной оптимизацией и, возможно, никому хуже не будет, если клиенты будут тупее - просто грабить сообщения со страницы и отправлять награбленное.
Вся работа по закачке HTML-страниц переносится на клиентов, а сервер получает от них только свежевыжатый сок.
В плане поиска данных на веб-страницах гугл более туп и поэтому более устойчив и живуч, а моя система более тонка и рассыпется быстрее. Тонкость в том, что каждый конкретный сайт нуждается в том, чтобы под него вручную был настроен фильтр. Фильтр - это то, что парсит HTML и выдаёт набор голых сообщений или имён топиков с форума. Фильтр может быть невелик по объёму (на языке tagstractor код выгребания списка топиков с лора занимает 25 строк и 621 байт, выгребание сообщений с умением не запинаться об их переменчивую вёрстку - 2 КБ). Смысл этого в различении текста сообщений на html-страницах, чтобы серверу передать только сок без кожуры.
Клиент запускается, просит у сервера задание. Сервер отправляет ему урл и TT-скрипт для разбора страницы с этого урла. В ответ сервер получает массив строк, каждая из которых - это, например, мессага на форуме.
Сервер вычисляет хэш от каждой мессаги, чтобы сравнить с другими хешами и проверить мессагу на уникальность. Ну это уже детали...
Периодически сервер запускает пересчёт индекса в какой-нибудь там базе, используя какой-нибудь там sphinx или что-то такое...
На странице сервиса можно делать полнотекстовый поиск по сообщениям форума, топикам, авторам, читать сообщения прямо с нашего сервера или переходить по ссылке на оригинал.
Ясно, что всё это «не нужно и фтопку», что много где есть RSS, но интерес какой-то есть. Старая версия базы, составленная из выдернутых топиков с разных сайтов - http://ymap.dyndns.org/