Больше чем просто поиск...

0

0

Существующие поисковые технологии уже не в состоянии справляться со все растущим потоком неструктурированных даных. В море публично доступной информации становится все труднее найти нужный кусок...

Уже более четырех лет команда исследователей, состоящая из лингвистов и специалистов в области IT, при Middlebury College работает над проектом, призванным изменить устоявшийся подход к технологии поиска. Группа под руководством Арона Кобурна (Aaron Coburn) разрабатывает поисковый движок, который рассматривает запрос с точки зрения семантики, а не просто как набор ключевых слов. Простейший пример: результат запроса "фрукты" может включать документы, в которых упоминаются "яблоки" и "апельсины", или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Еще одна область для применения технологии, над которой трудятся авторы, это визуализация художественных произведений, буквально - построение графических связей между терминами в тексте. Таким образом создается удобный метод поиска по тексту, мгновенно дающий представление о взаимодействии персонажей произведения. С этой целью авторы рассчитывают провести индексацию как можно большего количества текстов, доступных из проекта Gutenberg.

Ядром технологии является экспериментальный поисковый движок код которого вместе с Perl-биндингами и всем необходимым для создания GUI доступен под GNU GPL. Позже в этом месяце авторы обещают выпустить пользовательское приложение для поиска на десктопе, основанное на даной технологии.

страница проекта http://www.knowledgesearch.org/

>>> Подробности

Ссылка

←	DOSBox портировали на PalmOS

Интервью с Bob Beck

→

← 1 2 →

> или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт" даже если слово "Наполеон" в нем не встречается.

А на запрос "Патрег" найдёт "Бох"? =)

~~ip1981~~ ☆☆
(26.09.06 22:16:37 MSD)

Ссылка

сдается мне скоро их купит гугл...

isden ★★★★★
(26.09.06 22:18:45 MSD)

Ссылка

Хм, сколько я не читал дисертаций и статей на тему семантического анализа, всегда получалось, что расширение запроса словами семантически близкими словам запроса, привносит больше шума, чем пользы.
Прошел по сцылке! Но так и не понял, на основе чего строятся семантические связи?? Каким алгоритмом? Если кто понял - отпишитесь (ибо ночь ужо, а завтра на работу)

ProtecT ★
(26.09.06 22:26:19 MSD)

И наступит воистину Хавос. Мне довольно чясто гугль подсовывает ненужные ссылки, в которых искомого слова ну просто нету :(

~~bugmaker~~ ★★★★☆
(26.09.06 22:33:27 MSD)

Ответ на: комментарий от ProtecT 26.09.06 22:26:19 MSD

>Хм, сколько я не читал дисертаций и статей на тему семантического анализа, всегда получалось, что расширение запроса словами семантически близкими словам запроса, привносит больше шума, чем пользы.

Зависит от выбора тезауруса. Проблема только в том, что нормального тезауруса для большинства языков нет. Есть, правда, хороший для английского, но и только.

Отсутствует морфология, что плохо.

Вдобавок хранение данных в SQL СУБД... короче, работать будет мееееееееееееееееееееедленно. Для поиска даже по десктопу не пригодно вовсе.

Сыро, крайне сыро.

anonymous
(26.09.06 22:34:33 MSD)

Что-то я не понял, нафиг они берутся за десктоп, если не сделали еще сервер? так модно чтоли =/

~~gh0stwizard~~ ★★★★★
(26.09.06 22:41:04 MSD)

Ссылка

Ответ на: комментарий от anonymous 26.09.06 22:34:33 MSD

Хм... если сейчас на простой запрос выводи примерно несколько сотен ссылок, то что будет при "умном" отборе?.. те несколько сотен + еще порядка тысячи как-бы подходящих по описанию =\.. Жесть товарищи

anonymous
(26.09.06 22:41:47 MSD)

Ответ на: комментарий от anonymous 26.09.06 22:41:47 MSD

Я думать боюсь о том, что выдаст запрос "жириновский"...

shimon ★★★★★
(26.09.06 22:49:41 MSD)

Ссылка

просто надо уметь гуглить...

Killy ★
(26.09.06 22:51:46 MSD)

Ответ на: комментарий от Killy 26.09.06 22:51:46 MSD

а по слову стэк оно приплюсует буфер и выдаст Enlarge your penis?

BaBL ★★★★★
(26.09.06 23:01:32 MSD)

Ответ на: комментарий от Killy 26.09.06 22:51:46 MSD

Блин, вот сам хотел это написать, респект единомышленникам!

anonymous
(26.09.06 23:04:22 MSD)

Ссылка

>или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Ну мужики дают... "Наполеон" обычно с воткой ассоциируются, а они Бонапарта какого-то подсовывают. Чуствую, что на запрос "Windows 95" будет результат "Операционная система"

anonymous
(26.09.06 23:13:38 MSD)

Ответ на: комментарий от anonymous 26.09.06 23:13:38 MSD

> Ну мужики дают... "Наполеон" обычно с воткой ассоциируются, а они Бонапарта какого-то подсовывают.

коньяк батенька, коньяк =)))

isden ★★★★★
(26.09.06 23:21:41 MSD)

Ответ на: комментарий от isden 26.09.06 23:21:41 MSD

>коньяк батенька, коньяк =)))

Коньяк, но ассоциируется с воткой.

anonymous
(26.09.06 23:24:21 MSD)

Ответ на: комментарий от Killy 26.09.06 22:51:46 MSD

> просто надо уметь гуглить...

Давай на конкретном примере.

29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

pv4 ★★
(26.09.06 23:24:24 MSD)

Ответ на: комментарий от pv4 26.09.06 23:24:24 MSD

>29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

Я пришел в магазин и хочу купить докторскую колбасу. Что мне сказать прдавщице, чтобы купить именно докторскую, ведь ледит и сервелат, и московская? "Дайте 300 г. докторской" не предлагать.

anonymous
(26.09.06 23:28:32 MSD)

Вот на pubsub.com действительно революционно подошли к поиску: искать не устаревшей информации, которая в архивах, а в той, которая выходит в текущий момент. Вот где открывается новая ниша в поиске.

По сравнению с этим идея в сабже выглядит мелко, примерно на уровне поддержки падежей и склонений в языке.

Жаль что сервис пабсаб сейчас не работает :( Кто бы повторил, может яндекс осилит.

anonymous
(26.09.06 23:45:15 MSD)

Ответ на: комментарий от anonymous 26.09.06 23:28:32 MSD

> >29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

> Я пришел в магазин и хочу купить докторскую колбасу. Что мне сказать прдавщице, чтобы купить именно докторскую, ведь ледит и сервелат, и московская? "Дайте 300 г. докторской" не предлагать.

А что, если ты так скажешь, она тебе отвесит всего докторского, что там есть, причём чего-то по триста, а другого - по грамму?

pv4 ★★
(26.09.06 23:45:34 MSD)

Ссылка

тот кто реализует быстрый семантический поиск будет править миром. я думаю гугл уже нанял пару сотен мега умных Ph.D которые уже заняты этим вопросом.

zort ☆
(27.09.06 00:00:45 MSD)

Ответ на: комментарий от pv4 26.09.06 23:24:24 MSD

"glibc-2.5" -glibc-2.2 -glibc-2.3 -glibc-2.4

Killy ★
(27.09.06 00:31:29 MSD)

Ответ на: комментарий от anonymous 26.09.06 23:13:38 MSD

> на запрос "Windows 95" будет результат "Операционная система"

...А так как наибольшее количество статей в сети про операционные
системы касаются линукса, то... выводим страницы про линукс! Правильно?

Ну очень далеко можно зайти рассматривая запрос с точки зрения
семантики. Хотел бы я, например, посмотреть на результат запроса по
фразе "длинная коса" ;)

annonymous ★★
(27.09.06 00:33:50 MSD)

Ответ на: комментарий от zort 27.09.06 00:00:45 MSD

> тот кто реализует быстрый семантический поиск будет править миром.

Хм. Гугл уже правит миром. И для этого не понадобился семантический
поиск. Очередное buzzword.

annonymous ★★
(27.09.06 00:38:13 MSD)

Ответ на: комментарий от annonymous 27.09.06 00:38:13 MSD

может для тебя семантика это buzzword ?

zort ☆
(27.09.06 00:49:28 MSD)

Ответ на: комментарий от zort 27.09.06 00:49:28 MSD

Не семантика, а "семантический поиск".

annonymous ★★
(27.09.06 00:54:09 MSD)

Ссылка

Чуваки имеют мысль, ибо жалкие попытки использовать искусственные онтологии ни к чему кроме гимороя в больших масштабах привести не могут.

Так что будем следить и надеяться что SemanticWeb всё-таки появиться.

anonymousI ★
(27.09.06 00:55:06 MSD)

Трата электричества. Авторов в биореактор, пользы больше будет. Лучше бы нейросети разрабатывали и ИИ.

anonymous
(27.09.06 01:03:01 MSD)

Ссылка

> или на запрос "Наполеон" результатом будет выдан текст содержащий слово "Бонапарт", даже если слово "Наполеон" в нем не встречается.

Млять. У меня шеф - Бонапарт Львович. Хотел поискать в инете ссылки на его публикации, а мне 500 тыщ наполеонов насовали. Дурдом. Когда кампутир пытается думать, то человеку, как правило, остаётся только обхватывать голову руками и выть от безысходности.

anonymous
(27.09.06 01:09:13 MSD)

Ответ на: комментарий от anonymousI 27.09.06 00:55:06 MSD

Мысль у "чуваков" хоть и имеется, но оригинальностью не отличается, и
стройной теории под собой не имеет. По моему мнению, работающий рецепт -
это Bayesian статистический анализ текстов. Всё остальное от Лукавого.

annonymous ★★
(27.09.06 01:11:24 MSD)

Ссылка

Ответ на: комментарий от anonymous 26.09.06 23:24:21 MSD

>> коньяк батенька, коньяк =)))

> Коньяк, но ассоциируется с воткой.

Это только у алкоголиков. У них и тройной одеколон тоже с водкой ассоциируется.

anonymous
(27.09.06 01:14:26 MSD)

Ссылка

Ответ на: комментарий от anonymous 26.09.06 23:45:15 MSD

> Вот на pubsub.com действительно революционно подошли к поиску: искать не устаревшей информации, которая в архивах, а в той, которая выходит в текущий момент. Вот где открывается новая ниша в поиске.

Правильно. Вспомнил, что полгода назад статью интересную читал, даже ключевые слова помнишь и фамилию автора, а не найдёшь - хрен тебе. Ибо. Нех старьё читать. Лучше на-ка, почитай, что Сопчаг вчера отмочила.

anonymous
(27.09.06 01:19:54 MSD)

Ответ на: комментарий от Killy 27.09.06 00:31:29 MSD

> "glibc-2.5" -glibc-2.2 -glibc-2.3 -glibc-2.4

Правильно. И все статьи про 2.5, где вскользь упоминаются предыдущие версии, дружным строем отправились в биореактор. Зачем вообще нужен такой поиск?

anonymous
(27.09.06 01:23:30 MSD)

Ссылка

Ответ на: комментарий от annonymous 27.09.06 00:33:50 MSD

> Ну очень далеко можно зайти рассматривая запрос с точки зрения семантики. Хотел бы я, например, посмотреть на результат запроса по фразе "длинная коса" ;)

Какие вы все умные, мне прям страшно. 99.99% интернет-юзеров - феерическое быдло. Они будут счастливы, если поисковик на запрос "фотки голых бап" выдаст им то, что нужно. И с этого момента сие быдло будет пользоваться ТОЛЬКО этим поисковиком. Потому что быдло. Потому что где мой пулемёт, пилять.

anonymous
(27.09.06 01:26:53 MSD)

Ответ на: комментарий от zort 27.09.06 00:00:45 MSD

Семантика, семантика...

..у каждого человека она своя, не стоит это забывать.

catap ★★★★★
(27.09.06 01:35:41 MSD)

Ответ на: комментарий от catap 27.09.06 01:35:41 MSD

> Семантика, семантика.....у каждого человека она своя, не стоит это забывать.

Ориентироваться будут на быдло, оно примерно однородно. Оно запрограммировано рекламой и жёлтой прессой. Кроме того, его значительно больше.

anonymous
(27.09.06 01:39:29 MSD)

Ответ на: комментарий от anonymous 27.09.06 01:39:29 MSD

Тогда даже не интересно это писать.. эх..

catap ★★★★★
(27.09.06 02:03:54 MSD)

Ссылка

Ответ на: комментарий от bugmaker 26.09.06 22:33:27 MSD

> чясто гугль подсовывает ненужные ссылки, в которых искомого слова ну просто нету :(

У меня такое обычно бывает если искомое слово было в ссылке на страницу. Гугл сам пишет "слово было только в ссылке" если просматривать кэш. Как бы эту фичу отключить, сохранив поиск по всем остальным элементам?

Думаю, одним из основных вопросов к разработчикам будет "Как отключить ваш грёбаный тезаурус!?" :)

acheron ★★★★
(27.09.06 02:09:42 MSD)

Ссылка

Бредовая затея.

mutronix ★★★★
(27.09.06 03:49:53 MSD)

Ответ на: комментарий от ProtecT 26.09.06 22:26:19 MSD

2 ProtecT

погугли:
"distributional clustering of English words" (Pereira at al - есть пдф), "support vector machines", "kernel methods" и оттудова дальше.
Публикаций на тему создания коммунитиз - море, типа модно сейчас (в большинстве своём - сферические кони в вакууме, имхо, по многим причинам)

Anode ★
(27.09.06 07:09:15 MSD)

Ссылка

Ответ на: комментарий от mutronix 27.09.06 03:49:53 MSD

косил косой косой косой!

и пусть разберется!

Lockywolf ★★★
(27.09.06 07:15:38 MSD)

Ссылка

Ответ на: комментарий от zort 27.09.06 00:00:45 MSD

> тот кто реализует быстрый семантический поиск будет править миром.

поищи echelon и ты узнаешь, кто правит бал в этой области, причем, уже очень давно.

добронежелатель

anonymous
(27.09.06 07:18:38 MSD)

Ссылка

Ответ на: комментарий от anonymous 27.09.06 01:26:53 MSD

bydlo@inet $ emerge -s "Фотки голых баб" Searching... [ Results for search key : Фотки голых баб ] [ Applications found : 0 ]

Фи отстойный поисковик

anonymous
(27.09.06 08:48:41 MSD)

Ссылка

Ответ на: комментарий от anonymous 27.09.06 01:39:29 MSD

> Ориентироваться будут на быдло, оно примерно однородно. Оно запрограммировано рекламой и жёлтой прессой. Кроме того, его значительно больше.

сегодня это называется "рыночная ниша"

firsttimeuser ★★★★★
(27.09.06 08:53:24 MSD) автор топика

Ссылка

Ответ на: комментарий от anonymous 27.09.06 01:26:53 MSD

> Какие вы все умные, мне прям страшно. 99.99% интернет-юзеров - феерическое быдло. Они будут счастливы, если поисковик на запрос "фотки голых бап" выдаст им то, что нужно. И с этого момента сие быдло будет пользоваться ТОЛЬКО этим поисковиком. Потому что быдло. Потому что где мой пулемёт, пилять.

bydloo@inet $ esearch "фотки голых баб"
[ Results for search key : фотки голых баб ]
[ Applications found : 0 ]

Фи какой отстойный поисковик!

bydloo@inet $ esearch porn
[ Results for search key : porn ]
[ Applications found : 1 ]

* media-gfx/pornview
Latest version available: 0.2.0_pre1-r1
Latest version installed: [ Not Installed ]
Size of downloaded files: 1,783 kB
Homepage: http://pornview.sourceforge.net
Description: Image viewer/manager with optional support for MPEG movies.
License: GPL-2

Ну хоть что-то...

anonymous
(27.09.06 08:56:51 MSD)

Ссылка

Ответ на: комментарий от anonymous 27.09.06 01:26:53 MSD

Неужели, вводя "фотки голых баб", вы втайне мечтаете увидеть голых мужиков?

anonymous
(27.09.06 10:04:55 MSD)

Ссылка

Ответ на: комментарий от anonymous 26.09.06 23:45:15 MSD

>Вот на pubsub.com действительно революционно подошли к поиску: искать не устаревшей информации, которая в архивах, а в той, которая выходит в текущий момент. Вот где открывается новая ниша в поиске.

Это звездец какой звездец. Искать надо в релевантной информации. "Последняя" это блоги, форумы и сайты вроде лора. Называется "хрен найдешь" информацию, в основном находится только упоминание о ней. Глупость короче.

r ★★★★★
(27.09.06 11:11:28 MSD)

Ответ на: комментарий от anonymous 27.09.06 01:09:13 MSD

> У меня шеф - Бонапарт Львович. Хотел поискать в инете ссылки на его публикации, а мне 500 тыщ наполеонов насовали.

ИМХО, это зависит от того, как реализован семантический поиск. Скажем, если база фактов хранится в виде семантической сети, можно ведь задать запрос типа [найти все объекты X, такие, что существует связь "X написан Y" И Y.имя = "Бонапарт" И существует связь "Y is_a Z", где Z.имя = "император"]. Собственно, на Прологе такие вещи можно писать уже сейчас, остается дело за малым: организовать автоматический перевод текстовых документов в фактографическую базу и реализовать такой поиск по ней за приемлемое время. Всего-навсего. :-)

SVK

anonymous
(27.09.06 11:23:26 MSD)

Ответ на: комментарий от anonymous 27.09.06 11:23:26 MSD

s/И существует связь/И НЕ существует связь/

SVK

anonymous
(27.09.06 11:25:00 MSD)

Ссылка

Ответ на: комментарий от pv4 26.09.06 23:24:24 MSD

> 29-го выходит glibc-2.5 и я хочу поискать о нём информацию. Что мне набрать в гугле, чтоб он не выдавал ссылок на документы, содержащие glibc-2.2.5, 2.3.x и пр.? "glibc 2.5" НЕ предлагать

Вот приколист. Пишешь в гугле glibc-2.5, идешь по первой же ссылке на maillist, а там чел пишет что 2.5 выходит 29, его справшивают а что там нового, а он отвечает что все уже написано в NEWS.

gloomdemon ★
(27.09.06 11:28:15 MSD)

Ссылка

Ответ на: комментарий от anonymous 27.09.06 11:23:26 MSD

:D Вот "организовать автоматический перевод текстовых документов в фактографическую базу и реализовать" это самое интересное, особенно если правильно будет работать.

gloomdemon ★
(27.09.06 11:31:27 MSD)