Здравствуйте!
Вобщем перейду сразу к сути: есть огромный массив текстовой информации, представленный в виде текстов, разметка разная, есть и markdown/latex/word etc, но это не суть важно, ибо все будет приводиться к чему-либо единому + иногда попадаются перекрестные ссылки, графики, таблицы, картинки
Нашей задачей является спроектировать базу данных, заполнить ее этой информацией и разработать интерфейс работы с этой базой данных. Проблема в том, что по объему база данных, по нашим очень оптимистическим прикидкам уже выйдет за 500-600ГБ, а весь объем данных с медиа инфой за 2ТБ
Интерфейс пользователя должен обладать контекстным поиском по всему массиву данных и обладать приемлемым быстродействием (допускается 30-40 секундная обрадотка запроса)
Собственно мы уже закончили формировать и редактировать сами документы, теперь наступает стадия создания БД и написание бекэнда и фронтенда. Фронтенд - мы планируем использовать CGI и писать бекэнд на Си, по поводу использования БД не знаем что лучше использовать
Если резюмировать: необходимо реализовать поиск по огромному объему текстовой информации, хотел спросить какие лучше использовать технологии языки итд ?
По функционалу это будет работать как http://www.consultant.ru/, только контент будет ориентирован на суд. эксперта и специалиста, то есть более узкий профиль
search engine, базы данных, программирование