LINUX.ORG.RU

поиск внутри базы данных, по clob'ам


0

0

такая задачка - мне нужно в оракле написать поисковку по неким таблицам. причём часть полей - clob. и нужно уметь искать как в яндексе, типа "Оленин религия дети пиздец" чтобы выдавало "Статья: мнение работников ЗАО Инфраменеджмент о христианстве". причём "оленин" найдётся в таблице "авторы", "религия" в таблице "дерево", а "дети писец" в цлобе самого документа.

есть идея куда смотреть?

★★★

Есть же поисковики с исходниками. Туда и смотреть.
Общая идея: необходимо снача индексировать информацию по словам и словоформам (это уже морфология языка) и вперед.

anonymous
()
Ответ на: комментарий от anonymous

то есть предлагаешь изобрести свой велосипед но с семью колёсами?

vahvarh ★★★
() автор топика

У оракла, насколько я знаю, есть средства полнотекстового поиска. Не в курсе, понимает ли он морфологию русского из коробки, скорее всего нет.

Так что, копать в сторону этого картриджа (Context cartridge).

Ну и lucene (http://lucene.apache.org/), у него точно есть стеммеры для русского.

anonymous
()

> причём "оленин" найдётся в таблице "авторы", "религия" в таблице "дерево", а "дети писец" в цлобе самого документа.

То есть ты хочешь в ответ на запрос получать строчки из разных таблиц? я что-то не видел чтобы такое вообще кто либо поддерживал.

gods-little-toy ★★★
()
Ответ на: комментарий от gods-little-toy

гм, не. у меня нужно выдать данные по документам. но слова могут встречаться не только в самом документе но и в связанных таблицах (и немного и строго фиксированно кол-во таблиц, но есть связи один ко многим, типа как авторы)

vahvarh ★★★
() автор топика

Может sphinx в этом деле как-то поможет?..

smh ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.