LINUX.ORG.RU
ФорумTalks

Аналитическая система: факты, знания, связи


0

1

Сижу и думаю, что неплохо бы написать opensource аналитическую систему (на крайний случай - агента) для сбора и анализа разнородных данных из сети и локальных документов и баз данных. Наподобие http://www.i-teco.ru/article154.html Но, понимая, что задача не из простых, и одному человеку это трудно потянуть, а тем более развивать, спрашиваю - есть ли потенциальные пользователи такой программы? Будет ли она кому-нибудь нужна?

Планирую писать на python + Qt Для хранения данных - скорее всего MongoDB

★★★★★

Вот экспертные системы нужны, а аналитические по моему не очень

XoFfiCEr ★★☆☆
()

Но, все же я уверен что спрос будет

XoFfiCEr ★★☆☆
()

Придётся тяжело, и вообще:

1) можно было сразу честно сказать, что очень хочется попрограммировать на Python, MongoDB и Qt;
2) надеюсь, есть представление о том, какие алгоритмы, методы и проблемы лежат в этой предметной области.

Не нужно строить из себя супергероя, это технологии завтрашнего дня.

eveel ★★
()

MongoDB

Будет ли она кому-нибудь нужна?

Нет

r_asian ★☆☆
()
Ответ на: комментарий от XVilka

> Просто думаю - поддаться лени не писать это дело, или нет

Поддаться. КМК, тебе просто хочется поработать с Mongo. Хотя Mongo здесь, в общем-то, отнюдь не главное.

tailgunner ★★★★★
()
Ответ на: комментарий от tailgunner

не главное. Я могу рассмотреть и другие варианты сохрания текущей инормации. Просто, в отличие от модулей, формат рабочей базы надо выбрать сразу.

XVilka ★★★★★
() автор топика

Хорошая идея.

Пилите!
Правда моя экспертная аналитическая система оценивает ваши шансы на успех как крайне низкие ;-P

Bad_ptr ★★★★★
()
Ответ на: комментарий от XVilka

Имею желание помочь, хотя бы в разработке алгоритмов. Кстати я сейчас именно Python интенсивно осваиваю. Но болею, увы

XoFfiCEr ★★☆☆
()
Ответ на: комментарий от XVilka

> я не строю из себя супрегероя. Просто думаю - поддаться лени не писать это дело, или нет

Не советую, несмотря на то, что это *очень* крутая тематика. Ищи деньги, партнёров, связи, и вперёд. Либо приходи в какой-нибудь НИИ и фигачь там.

Дело вот в чём. Я был участником RuSSIR/EDBT 2011, посвящённой The Web of Data. На конференции выступал профессор Gerhard Weikum из Max-Planck-Institut für Informatik с пленарным докладом “Knowledge Harvesting from Web Sources”. Если интересно, могу выложить слайды.

Сейчас в науке по этому направлению есть очень интересные разработки (Freebase, DBpedia, KnowItAll, ReadTheWeb, OpenCalais, etc). Как мне кажется, они не очень применимы во всяких там бизнесах. Мы же этого хотим, ага?

Не уверен в том, что система по ссылке в оригинальном посте действительно справляется с реальной работой. Хотя нет, судя по описанию, там ничего сложного нет. Это не делает её полезнее :)

eveel ★★
()
Ответ на: комментарий от XVilka

> Я могу рассмотреть и другие варианты сохрания текущей инормации.

%)

Кластерный анализ, методы представления знаний, вероятно, лингвистика - вот ядро системы. А способ хранения - это малозначащая техническая деталь.

P.S. И да, тебе не понадобится Mongo: http://teddziuba.com/2008/04/im-going-to-scale-my-foot-up-y.html

tailgunner ★★★★★
()
Ответ на: комментарий от tailgunner

..., семантическая сеть и кластерные карты - я про это в курсе.

XVilka ★★★★★
() автор топика

Пилите, Антон, пилите :) Мы вас поддерживаем. Только про Python и MongoDB забудьте. Вы же не хотите создать очередную тормозную поделку?

Othniel
()
Ответ на: комментарий от XVilka

>Если такую вещь писать на C/C++ - то сложность увеличиться в десятки, а то и сотни раз

С чего бы? Мы же не говорим о чистом C/C++. Есть же библиотеки всякие.

Othniel
()
Ответ на: комментарий от XVilka

> X-Files + Аналитический курьер работают, и их покупают достаточно активно.

Впервые слышу.

Эти системы круты только на картинках и в презентациях. В реальности всё зависит от мастерства внедренцев-интеграторов.

eveel ★★
()
Ответ на: комментарий от Evgueni

это скорее Text Mining, чем Data Mining

XVilka ★★★★★
() автор топика

>а тем более развивать, спрашиваю - есть ли потенциальные пользователи такой программы?

ну например систематизация научных статей и наполнение их результатами баз данных вполне себе отдельный рынок. Хотя по большей части виноваты в этом сами пейсатели - каждый представляет данные как хочет без какого-либо намека на стандарт.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от XVilka

> Да, по поводу слайдов - очень интересно, был бы благодарен.

На здоровье: http://rghost.ru/users/eveel1/releases/RuSSIREDBT-2011-Knowledge-Harvesting-f...

Если интересно поговорить про natural language processing и всякий text mining, то стукни мне по контактам, указанным на сайте в моём профиле. Я уже два года потихонечку двигаюсь в этом направлении, может найдём о чём побеседовать.

eveel ★★
()

Ооо это типа студенты теперь смогут литобзор машинно генерить?

Slesarev
()
13 декабря 2011 г.
Ответ на: комментарий от XVilka

Вот, нашел, возможно интересно будет увидеть Maltego http://www.paterva.com/web5/client/overview.php

Сегодня немало аналогичных продуктов. Maltego, как я понимаю, предназначен для уточнения интересов людей в организации. Из беглого обзора я не совсем понял, откуда берутся данные.

eveel ★★
()

http://uima.apache.org/

What is UIMA? Unstructured Information Management applications are software systems that analyze large volumes of unstructured information in order to discover knowledge that is relevant to an end user. An example UIM application might ingest plain text and identify entities, such as persons, places, organizations; or relations, such as works-for or located-at.

такое же собираетесь писать?

kvitaliy
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.