LINUX.ORG.RU

А чем вы пользуетесь для поиска по содержимому документов?


1

0

Доброго времени суток.

Сабж. Ну и достоинства с недостатками.

Использую beagle. Достаточно быстрая индексация, может индексировать как odt, так и doc. Корректный поиск по русскоязычным odt и odg. В doc ( 2000, xp и т.д) ищет, но только английский текст/цифры

Пробовал doodle. Из консоли вообще никак не работает с русскими текстами, хотя индексирует и odt, и doc. Но для вытаскивания текста из файлов использует libextract, нужно присмотреться к нему повнимательнее

★★★★★
Ответ на: комментарий от ip1981

>по содержимому документов?
________________^^^^^^^^^^^

Оно, конечно, труЪ, но документы придётся либо конвертировать в plain text, либо распаковывать и искать среди файлов содержимое. к тому же, в одном каталоге часто валяются файлы разных форматов

router ★★★★★
() автор топика
Ответ на: комментарий от router

> но документы придётся либо конвертировать

файлы разных форматов


авотхуй. LaTeX и исходники программ.

ip1981 ☆☆
()

grep, o3totxt | grep, pdftotext | grep ...

Eddy_Em ☆☆☆☆☆
()

Recoll. Самый удобный поисковик из всех, что я видел.

AX ★★★★★
()
Ответ на: комментарий от wyldrodney

>Strigi.

Полное отсутствие документации на офсайте сильно отталкивает. Попробую ещё скачать исходники, может там документация найдётся.

router ★★★★★
() автор топика
Ответ на: комментарий от annoynimous

>tracker

Вот это уже очень интересно. pdf, odt, doc нормально индексируются, с русским проблем нет.

Графическая морда немного неудобна - рассчитана под широкий экран, но это почти не мешает. :)

router ★★★★★
() автор топика
Ответ на: комментарий от router

Были бы полнотекстовые поисковики со встроенным в них cuneiform... А так - мне, например, от них толку 0, т.к. процентов 90 книг и другой литературы - нераспознанные сканы в pdf/djvu.

Eddy_Em ☆☆☆☆☆
()

По документам не ищу, т.к. у меня их совсем мало и в них ничего интересного, что стоило бы искать, нет. По тексту иногда ищу, там grep.

staseg ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.