Аналитическая система: факты, знания, связи

0

1

Сижу и думаю, что неплохо бы написать opensource аналитическую систему (на крайний случай - агента) для сбора и анализа разнородных данных из сети и локальных документов и баз данных. Наподобие http://www.i-teco.ru/article154.html Но, понимая, что задача не из простых, и одному человеку это трудно потянуть, а тем более развивать, спрашиваю - есть ли потенциальные пользователи такой программы? Будет ли она кому-нибудь нужна?

Планирую писать на python + Qt Для хранения данных - скорее всего MongoDB

Ссылка

←	[криокамера] Что это и давно-ли?

[спв] Как разбаниться на eBay?

→

Вот экспертные системы нужны, а аналитические по моему не очень

~~XoFfiCEr~~ ★★☆☆
(05.10.11 19:25:17 MSK)

Ссылка

Но, все же я уверен что спрос будет

~~XoFfiCEr~~ ★★☆☆
(05.10.11 19:26:09 MSK)

Ссылка

Придётся тяжело, и вообще:

1) можно было сразу честно сказать, что очень хочется попрограммировать на Python, MongoDB и Qt;
2) надеюсь, есть представление о том, какие алгоритмы, методы и проблемы лежат в этой предметной области.

Не нужно строить из себя супергероя, это технологии завтрашнего дня.

~~eveel~~ ★★
(05.10.11 19:26:57 MSK)

Ответ на: комментарий от eveel 05.10.11 19:26:57 MSK

я не строю из себя супрегероя. Просто думаю - поддаться лени не писать это дело, или нет

XVilka ★★★★★
(05.10.11 19:28:42 MSK) автор топика

MongoDB

Будет ли она кому-нибудь нужна?

Нет

r_asian ★☆☆
(05.10.11 19:30:57 MSK)

Ссылка

Ответ на: комментарий от XVilka 05.10.11 19:28:42 MSK

> Просто думаю - поддаться лени не писать это дело, или нет

Поддаться. КМК, тебе просто хочется поработать с Mongo. Хотя Mongo здесь, в общем-то, отнюдь не главное.

tailgunner ★★★★★
(05.10.11 19:34:01 MSK)

Ответ на: комментарий от tailgunner 05.10.11 19:34:01 MSK

не главное. Я могу рассмотреть и другие варианты сохрания текущей инормации. Просто, в отличие от модулей, формат рабочей базы надо выбрать сразу.

XVilka ★★★★★
(05.10.11 19:38:10 MSK) автор топика

Хорошая идея.

Пилите!
Правда моя экспертная аналитическая система оценивает ваши шансы на успех как крайне низкие ;-P

Bad_ptr ★★★★★
(05.10.11 19:38:52 MSK)

Ссылка

Ответ на: комментарий от XVilka 05.10.11 19:28:42 MSK

Имею желание помочь, хотя бы в разработке алгоритмов. Кстати я сейчас именно Python интенсивно осваиваю. Но болею, увы

~~XoFfiCEr~~ ★★☆☆
(05.10.11 19:41:11 MSK)

Ссылка

Ответ на: комментарий от XVilka 05.10.11 19:28:42 MSK

> я не строю из себя супрегероя. Просто думаю - поддаться лени не писать это дело, или нет

Не советую, несмотря на то, что это *очень* крутая тематика. Ищи деньги, партнёров, связи, и вперёд. Либо приходи в какой-нибудь НИИ и фигачь там.

Дело вот в чём. Я был участником RuSSIR/EDBT 2011, посвящённой The Web of Data. На конференции выступал профессор Gerhard Weikum из Max-Planck-Institut für Informatik с пленарным докладом “Knowledge Harvesting from Web Sources”. Если интересно, могу выложить слайды.

Сейчас в науке по этому направлению есть очень интересные разработки (Freebase, DBpedia, KnowItAll, ReadTheWeb, OpenCalais, etc). Как мне кажется, они не очень применимы во всяких там бизнесах. Мы же этого хотим, ага?

Не уверен в том, что система по ссылке в оригинальном посте действительно справляется с реальной работой. Хотя нет, судя по описанию, там ничего сложного нет. Это не делает её полезнее :)

~~eveel~~ ★★
(05.10.11 19:44:16 MSK)

Ответ на: комментарий от XVilka 05.10.11 19:38:10 MSK

> Я могу рассмотреть и другие варианты сохрания текущей инормации.

Кластерный анализ, методы представления знаний, вероятно, лингвистика - вот ядро системы. А способ хранения - это малозначащая техническая деталь.

P.S. И да, тебе не понадобится Mongo: http://teddziuba.com/2008/04/im-going-to-scale-my-foot-up-y.html

tailgunner ★★★★★
(05.10.11 19:46:12 MSK)

Ответ на: комментарий от tailgunner 05.10.11 19:46:12 MSK

..., семантическая сеть и кластерные карты - я про это в курсе.

XVilka ★★★★★
(05.10.11 19:55:02 MSK) автор топика

Ссылка

Ответ на: комментарий от eveel 05.10.11 19:44:16 MSK

X-Files + Аналитический курьер работают, и их покупают достаточно активно.

XVilka ★★★★★
(05.10.11 19:56:45 MSK) автор топика

Пилите, Антон, пилите :) Мы вас поддерживаем. Только про Python и MongoDB забудьте. Вы же не хотите создать очередную тормозную поделку?

~~Othniel~~
(05.10.11 19:58:25 MSK)

Ответ на: комментарий от Othniel 05.10.11 19:58:25 MSK

Если такую вещь писать на C/C++ - то сложность увеличиться в десятки, а то и сотни раз

XVilka ★★★★★
(05.10.11 20:03:09 MSK) автор топика

Ответ на: комментарий от XVilka 05.10.11 20:03:09 MSK

А вы не пишите быдлокодом.

r_asian ★☆☆
(05.10.11 20:09:37 MSK)

Ссылка

Ответ на: комментарий от XVilka 05.10.11 20:03:09 MSK

>Если такую вещь писать на C/C++ - то сложность увеличиться в десятки, а то и сотни раз

С чего бы? Мы же не говорим о чистом C/C++. Есть же библиотеки всякие.

~~Othniel~~
(05.10.11 20:10:49 MSK)

Ссылка

Ответ на: комментарий от XVilka 05.10.11 19:56:45 MSK

> X-Files + Аналитический курьер работают, и их покупают достаточно активно.

Впервые слышу.

Эти системы круты только на картинках и в презентациях. В реальности всё зависит от мастерства внедренцев-интеграторов.

~~eveel~~ ★★
(05.10.11 20:13:34 MSK)

Ссылка

Иди в сторону Data Mining, то есть R тебе в помощь и теория на шею.

Evgueni ★★★★★
(05.10.11 20:15:05 MSK)

Ответ на: комментарий от Evgueni 05.10.11 20:15:05 MSK

это скорее Text Mining, чем Data Mining

XVilka ★★★★★
(05.10.11 20:26:36 MSK) автор топика

Ссылка

>а тем более развивать, спрашиваю - есть ли потенциальные пользователи такой программы?

ну например систематизация научных статей и наполнение их результатами баз данных вполне себе отдельный рынок. Хотя по большей части виноваты в этом сами пейсатели - каждый представляет данные как хочет без какого-либо намека на стандарт.

DNA_Seq ★★☆☆☆
(05.10.11 20:36:18 MSK)

Ссылка

Ответ на: комментарий от eveel 05.10.11 19:44:16 MSK

Да, по поводу слайдов - очень интересно, был бы благодарен.

XVilka ★★★★★
(05.10.11 20:49:29 MSK) автор топика

Ответ на: комментарий от XVilka 05.10.11 20:49:29 MSK

> Да, по поводу слайдов - очень интересно, был бы благодарен.

На здоровье: http://rghost.ru/users/eveel1/releases/RuSSIREDBT-2011-Knowledge-Harvesting-f...

Если интересно поговорить про natural language processing и всякий text mining, то стукни мне по контактам, указанным на сайте в моём профиле. Я уже два года потихонечку двигаюсь в этом направлении, может найдём о чём побеседовать.

~~eveel~~ ★★
(05.10.11 21:00:56 MSK)

Ответ на: комментарий от eveel 05.10.11 21:00:56 MSK

Спасибо, посмотрим

XVilka ★★★★★
(05.10.11 21:20:49 MSK) автор топика

Ссылка

Ооо это типа студенты теперь смогут литобзор машинно генерить?

Slesarev ★
(05.10.11 22:31:57 MSK)

Ссылка

13 декабря 2011 г.

Ответ на: комментарий от eveel 05.10.11 21:00:56 MSK

Вот, нашел, возможно интересно будет увидеть Maltego http://www.paterva.com/web5/client/overview.php Написано на яве, зато опенсурс

XVilka ★★★★★
(13.12.11 18:37:48 MSK) автор топика

Ответ на: комментарий от XVilka 13.12.11 18:37:48 MSK

Вот, нашел, возможно интересно будет увидеть Maltego http://www.paterva.com/web5/client/overview.php

Сегодня немало аналогичных продуктов. Maltego, как я понимаю, предназначен для уточнения интересов людей в организации. Из беглого обзора я не совсем понял, откуда берутся данные.

~~eveel~~ ★★
(13.12.11 23:28:03 MSK)

Ссылка

http://uima.apache.org/

What is UIMA? Unstructured Information Management applications are software systems that analyze large volumes of unstructured information in order to discover knowledge that is relevant to an end user. An example UIM application might ingest plain text and identify entities, such as persons, places, organizations; or relations, such as works-for or located-at.

такое же собираетесь писать?

kvitaliy ★
(13.12.11 23:50:01 MSK)

Ответ на: комментарий от kvitaliy 13.12.11 23:50:01 MSK

да. Что-то в этом роде.

XVilka ★★★★★
(14.12.11 00:13:00 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	[криокамера] Что это и давно-ли?

Talks

[спв] Как разбаниться на eBay?

→

Хорошая идея.

Похожие темы