LINUX.ORG.RU

Apache Tika 1.0

 , ,


0

1

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения текста и метаданных из распространенных бинарных форматов. Tika создавалась как подпроект библиотеки полнотекстового поиска Apache Lucene.

Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др. Поддерживается извлечение метаданных из аудио-форматов и изображений, распаковка некоторых популярных форматов архивов.

Основные изменения по сравнению с 0.10:

  • RTF: поддержка гиперссылок
  • MS Word: поддержка Unicode дефисов
  • Outlook: извлечение вложенных файлов
  • MS Office: увеличение скорости
  • OpenOffice: извлечение верхних и нижних колонтитулов
  • PDF: корректное извлечение параграфов и опциональная поддержка аннотаций
  • Определение языка/кодировки текстов: добавлена поддержка белорусского, каталонского, эсперанто, галийского, литовского, румынского, словацкого, словенского и украинского языков (русский язык и популярные в России кодировки поддерживаются и в предыдущих версиях Tika)
  • Работа и конфигурация в OSGi окружении
  • Удалены API, объявленные устаревшими в предыдущих версиях

>>> Подробности

★★★★★

Проверено: timur_dav ()
Последнее исправление: maxcom (всего исправлений: 1)

>Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др. Поддерживается извлечение метаданных из аудио-форматов и изображений, распаковка некоторых популярных форматов архивов.

Она с Solr или Nutch работает?

luke ★★★★★
()

>Определение языка/кодировки текстов: поддержка белорусского, каталонского, эсперанто, галийского, литовского, румынского, словацкого, словенского и украинского языков
Т.е., без русского?

tmplsr
()
Ответ на: комментарий от luke

maxcom сегодня в ударе.

Скор накручивает :-)

Ok
()
Ответ на: комментарий от tmplsr

Русский язык там давно есть

maxcom ★★★★★
() автор топика
Ответ на: комментарий от luke

> Nutch

Вроде может реальный язык текста определять через какой-то плагин, который дергает тику.

shahid ★★★★★
()

руский языка в ударе

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения... набор утилит для извлечения или одна утилитА?

drfaust ★★★★★
()

Определение языка/кодировки текстов: добавлена поддержка белорусского

Годно. Файная навіна!

LexArt ★★
()
Ответ на: комментарий от AVL2

пробуй свежую версию - поддержка многих форматов стала быстрее

maxcom ★★★★★
() автор топика

какие распространенные бинарные форматы имеются в виду?

anonymous_sapiens ★★★★★
()

Бинарный текст

Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения текста и метаданных из распространенных бинарных форматов.

Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др.

TheLibertyMan
()

Прочитал название как «Апаче-Титька» ))))

anonymous
()

Мне бы файлы формата MS Ofiice Word 97-2003 сконвертировать в какой-нить fb2 или просто HTML, но чтобы со всеми таблицами и формулами. Этот Tika справится?

Wizard_ ★★★★★
()
Ответ на: комментарий от Wizard_

Есть вариант через утилиту unoconv из опенофиса, но она безбожно глючит.

Wizard_ ★★★★★
()

Отличная вещь кстати, юзаем как полнотекстовый поиск по документам в системе.

jreznot
()
Ответ на: комментарий от Wizard_

формулы помоему никто не умеет корректно извлекать.

Таблицы и HTML будет, но оформление почти не будет перенесено (хотя для чтения это может и лучше)

maxcom ★★★★★
() автор топика
Ответ на: комментарий от maxcom

Понятно. Спасибо за информацию, посмотрю.

Wizard_ ★★★★★
()
Ответ на: комментарий от maxcom

Под формулами имеется в виду MS Equation и т.п.?

frob ★★★★★
()
Ответ на: комментарий от anonymous

Да нет.

Во первых, Тика вообще ничего сама не делает. Это слой абстракции, который позволяет единообразно обращаться к разным вытаскивателям метаинформации из файлов.

Реально работает POI и pdfbox, первый из которых и можно было бы сравнить с libextractor.

AVL2 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.