Выбор технологий для организации справочно-экспертной системы

search engine, базы данных, программирование

0

4

Здравствуйте!

Вобщем перейду сразу к сути: есть огромный массив текстовой информации, представленный в виде текстов, разметка разная, есть и markdown/latex/word etc, но это не суть важно, ибо все будет приводиться к чему-либо единому + иногда попадаются перекрестные ссылки, графики, таблицы, картинки

Нашей задачей является спроектировать базу данных, заполнить ее этой информацией и разработать интерфейс работы с этой базой данных. Проблема в том, что по объему база данных, по нашим очень оптимистическим прикидкам уже выйдет за 500-600ГБ, а весь объем данных с медиа инфой за 2ТБ

Интерфейс пользователя должен обладать контекстным поиском по всему массиву данных и обладать приемлемым быстродействием (допускается 30-40 секундная обрадотка запроса)

Собственно мы уже закончили формировать и редактировать сами документы, теперь наступает стадия создания БД и написание бекэнда и фронтенда. Фронтенд - мы планируем использовать CGI и писать бекэнд на Си, по поводу использования БД не знаем что лучше использовать

Если резюмировать: необходимо реализовать поиск по огромному объему текстовой информации, хотел спросить какие лучше использовать технологии языки итд ? По функционалу это будет работать как http://www.consultant.ru/, только контент будет ориентирован на суд. эксперта и специалиста, то есть более узкий профиль

Ссылка

←	Фриланс: что выбрать JS(node.js + что-то на UI) \|\| Python(Django) \|\| Ruby(Rails) ?

Как рельсы должны обрабатывать AJAX-запросы?

→

postgresql умеет в full text search искаропки http://www.postgresql.org/docs/9.3/static/textsearch.html

exception13 ★★★★★
(12.04.14 16:02:11 MSK)

Короче говоря, вам надо что-то типа Wiki, только без свободного редактирования?

Кстати Wikipedia использует поисковый движок Lucene, в качестве другого варианта можете посмотреть Sphinx.

static_lab ★★★★★
(12.04.14 16:08:03 MSK)

Сфинкс на таком объеме за доли секунд искать будет

pi11 ★★★★★
(12.04.14 16:10:40 MSK)

Ссылка

Ответ на: комментарий от exception13 12.04.14 16:02:11 MSK

На таком объем данных встроенный поиск будет очень медленный

pi11 ★★★★★
(12.04.14 16:11:41 MSK)

Я немного не понял, у вас цельные документы, или можно как-то разделить текст и картинки, а потом сливать или рендерить их перед скачиванием?

Как будут редактировать эти документы, как вики? Или просто заливать и сливать целые документы?

Сколько пользователей всего, в сутки? Какой бюджет? Рассматриваете ли вы готовые облака? У вас в командне экспертиза только в С?

~~vertexua~~ ★★★★★
(12.04.14 16:14:54 MSK)
Последнее исправление: vertexua 12.04.14 16:17:25 MSK (всего исправлений: 3)

Ссылка

Ответ на: комментарий от static_lab 12.04.14 16:08:03 MSK

Короче говоря, вам надо что-то типа Wiki

не совсем, я попытаюсь объяснить функционал системы как готового продукта:

вобщем живет себе слеователь/эксперт, и тут поступает дело, например следователю надо провести допрос -> ему надо бланки для допроса и рекомендуемую литературу по проведению допроса и ссылки на законы - соответственно следователь набирает «как проводить допрос» или «блан допроса» и ему выдает все и сразу

или например эксперту надо узнать как лучше идентифицировать пальчики на стальной поверхности - он пишет «отпечатки пальцев на металле» или «идентификация следов на метал. поверхностях» и ему выдает всю необходимую методику по этой процедуре

сами материалы, книги, документы итд есть - редактура закончена осталось решить проблему с технологиями

PS. поиск с элементами семантики пишу...

VVSWarHead
(12.04.14 16:15:11 MSK) автор топика

Ответ на: комментарий от pi11 12.04.14 16:11:41 MSK

На таком объем данных встроенный поиск будет очень медленный

тут важно то, что полюбас надо пробегать всю БД

Как будут редактировать эти документы, как вики? Или просто заливать и сливать целые документы?

редактируют только админы - пользователю выдает готовые формы проще говоря мы пишем свой аналог консультанта+ или гаранта, только у нас контент будет другой

VVSWarHead
(12.04.14 16:17:08 MSK) автор топика

Ответ на: комментарий от VVSWarHead 12.04.14 16:17:08 MSK

На сфинксе это можно

pi11 ★★★★★
(12.04.14 16:19:35 MSK)

Ссылка

А система будет онлайн или оффлайн?

static_lab ★★★★★
(12.04.14 16:55:54 MSK)

Ссылка

полнотекстовый поиск в постге или lucene. в любом случае, обьем данных смешной. для семантического поиска люсин лучше. а, еще, пожалуйста, не пшите на Си =)

val-amart ★★★★★
(12.04.14 18:26:23 MSK)

Ответ на: комментарий от val-amart 12.04.14 18:26:23 MSK

Можно для справки, чем Си плох?

Deleted
(12.04.14 18:29:35 MSK)

Ответ на: комментарий от Deleted 12.04.14 18:29:35 MSK

не хочу разводить флейм но для вебсервисов Си плохой выбор — много потенциала для ошибок, длинный цикл разработки, отсутствие многих удобных инструментов и механизмов (чистый cgi уныл). хороших программистов на Си мало, а факап плохого программиста на Си гораздо более печален чем такой же факап на Питоне скажем.

val-amart ★★★★★
(12.04.14 19:19:59 MSK)

Ответ на: комментарий от val-amart 12.04.14 19:19:59 MSK

Мне этой информации достаточно. Спасибо за ответ.

Deleted
(12.04.14 19:22:31 MSK)

Ссылка

Ответ на: комментарий от VVSWarHead 12.04.14 16:17:08 MSK

тут важно то, что полюбас надо пробегать всю БД

Не надо никуда пробегать, индексы же

Вебморда к полнотекстовому поиску postgres прикручивается за неделю-две: https://disarmer.ru/info.pl?p=ed_conference_2012

disarmer ★★★
(13.04.14 15:19:14 MSK)

Ссылка

Ответ на: комментарий от Deleted 12.04.14 18:29:35 MSK

C не плох, просто тут он своей скоростью ничем не поможет, а скорость разработки на нем не особо высокая

umren ★★★★★
(13.04.14 15:25:22 MSK)

Ссылка

elasticsearch или sphinx или solr + типичная SQL БД + любой ЯП/Платформа, ну на C или там C# лучше это не делать, дорого выйдет :)

umren ★★★★★
(13.04.14 15:27:54 MSK)

Ссылка

Ответ на: комментарий от VVSWarHead 12.04.14 16:15:11 MSK

А если выложить всё это в интернеты и потом искать гуглом? :) Почти бесплатно получится

Harald ★★★★★
(13.04.14 15:30:44 MSK)
Последнее исправление: Harald 13.04.14 15:31:25 MSK (всего исправлений: 1)

Ответ на: комментарий от Harald 13.04.14 15:30:44 MSK

а как же миллионы денег которые нельзя будет заработать? :D

umren ★★★★★
(13.04.14 15:55:00 MSK)

Ссылка

Ответ на: комментарий от Harald 13.04.14 15:30:44 MSK

А если выложить всё это в интернеты и потом искать гуглом? :) >Почти бесплатно получится

мы этим уже занимаемся - то, что можно выложить - выкладываем в паблик, суть системы в том, что инфа узкоспециализированная, а некоторую инфу нельзя выкладывать в паблик

VVSWarHead
(13.04.14 16:25:16 MSK) автор топика

Ссылка

Берите что-то готовое для построения полнотекстового поиска. Я бы посоветовал solr, в случае если его возможностей не хватит - можно будет довольно просто вокруг lucene, который он внутри себя использует, накрутить свой велосипед. И java||c# для морды ко всему этому хозяйству. По банальной причине - на порядки легче найти вменяемых разработчиков. Мы уже третий месяц не можем найти вменяемого сишника, хоть у нас и хорошие условия работы, а вот с яверами и шарперами проблем особых нет.

Nagwal ★★★★
(13.04.14 21:51:17 MSK)