LINUX.ORG.RU

Apache Lucene & Solr 3.5.0

 , ,


0

1

Вышла новая версия библиотеки полнотекстового поиска Apache Lucene и построенного на ней поискового сервера Apache Solr.

Основные изменения в Lucene:

  • Существенное уменьшение объема оперативной памяти, используемого для хранения словарного индекса (LUCENE-2205)
  • Ускорение поиска по n-gramm'ам (LUCENE-3426)
  • Несколько новых API, упрощающих многопоточную работу с индексом
  • Поддержка wildcard запросов в модуле выделения найденного в результатах поиска
  • Различные багфиксы

Основные изменения в Solr:

  • Группировка результатов при распределенном поиске
  • Новый дополнительный стеммер "Hunspell" с поддержкой 99 языков
  • Дополнительный модуль для определения языка исходного текста, использующий детектор из Apache Tika или библиотеки Cybozu
  • Добавлен флаг, задающий положение пустых значений при сортировке - в начале списка или в конце
  • Различные багфиксы

>>> Подробности

★★★★★

Последнее исправление: maxcom (всего исправлений: 2)

И это хорошо.

anonymous
()
Ответ на: комментарий от maxcom

Т.е. баг все-таки в jdk был?

А то мне сейчас по работе не нужен апач с солром, не разбирался особо кто там виноват.

Nagwal ★★★★
()
Ответ на: комментарий от Nagwal

> Т.е. баг все-таки в jdk был?

Да, кстати он и в jdk 6 был с некоторыми опциями -XX, но там они выключены по-умолчанию

maxcom ★★★★★
() автор топика
Ответ на: комментарий от anonymous

В Lucene гораздо больше возможностей

maxcom ★★★★★
() автор топика

Различные багфиксы

Надо посмотреть повнимательнее

mikhalich ★★
()

Можно ли сабж быстро заставить работать в режиме «съел текст - выдал лексемы, ничего не сохраняя»?

shahid ★★★★★
()
Ответ на: комментарий от shahid

Можно ли сабж быстро заставить работать в режиме «съел текст - выдал лексемы, ничего не сохраняя»?

если ты стемминг имеешь в виду, то запросто ;)

real_maverick ★★★
()
Ответ на: комментарий от shahid

Последний раз, когда её ковырял, язык надо было задавать самому.

Пардон, меня проглючило. Последний раз я делал детект с помощью nutch'а.

nebm51
()
Ответ на: комментарий от qbbr

ну, я как бы Solr использую, не замечал за ним такого.

Ingwar ★★★★★
()
Ответ на: комментарий от shahid

3.5 я еще не смотрел, в 3.4 надо было самому определять. Проще всего той же Apache Tika, нам ngramm'ный определитель вполне рабочий (впрочем со всеми недостатками таких определителей)

maxcom ★★★★★
() автор топика
Ответ на: комментарий от shahid

Зачем только для стемминга тянуть целый Solr/Lucene? Есть же standalone библиотеки для этого.

plus-one-is-not-needed
()
Ответ на: комментарий от plus-one-is-not-needed

> Терабайтом памяти запасаться надо?

Lucene очень много всякого умеет, все зависит от задачи.

maxcom ★★★★★
() автор топика
Ответ на: комментарий от Nagwal

> не разбирался особо кто там виноват

Что там разбираться? У них на главной странице до сих пор об этом написано.

pitekantrop ★★★
()

> Существенное уменьшение объема памяти, используемого для хранения словарного индекса (LUCENE-2205)

Сократили использование ОЗУ. Хранение индекса на диске не должно было измениться.

pitekantrop ★★★
()

Кстати, насчёт стеммера - там только стеммер, или ещё морфологическая база есть? Я смотрел когда-то для русского языка - всё совсем уж платные были. Тот же «национальный корпус».

GblGbl ★★★★★
()
Ответ на: комментарий от shahid

а язык текста перед стеммингом определить может?

раньше было нельзя, сейчас вроде есть механизм для определения, у меня просто такой задачи не стояло

real_maverick ★★★
()
Ответ на: комментарий от GblGbl

Кстати, насчёт стеммера - там только стеммер, или ещё морфологическая база есть?

aot.ru - сделано чужими для хищников, но там можно найт много вкусного ;)

real_maverick ★★★
()
Ответ на: комментарий от maxcom

А эта либа работает только в связке с люценой? Если да, то может быть вы посоветуете какие-нибудь ещё библиотеки? На PHP есть phpmorphy (на базе всё того же aot), хотелось бы что-то подобное для Java.

anonymous
()
Ответ на: комментарий от pi11

Как недавно на ЛОРе выясняли, Сфинкс найти Януковича по запросу «якунович», а Люцена умеет.

http://sphinxsearch.com/docs/current.html#conf-wordforms

вы всерьёз думаете, что можно все варианты опечаток всех слов внести в словарь?

Ingwar ★★★★★
()
Ответ на: комментарий от pi11

А Solr работает в данном случае?

У нас обычный стеммер, для опечаток нужно настраивать fuzzy поиск

maxcom ★★★★★
() автор топика
Ответ на: комментарий от maxcom

даже мануал не накропать к поиску, так как сами не знаем всех возможностей :)

удивительно, как никто не заметил, что перелистывать поиск при выбранном разделе нет никакой возможности - сбрасывается выбор

hizel ★★★★★
()
Ответ на: комментарий от hizel

ну в прошлой версии поиска перелистывания небыло совсем, и никто не жаловался :-)

maxcom ★★★★★
() автор топика
Ответ на: комментарий от maxcom

Да, действительно. Интересная штука.

pi11 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.