Вышла версия 1.0 Apache Tika — библиотеки и утилит для извлечения текста и метаданных из распространенных бинарных форматов. Tika создавалась как подпроект библиотеки полнотекстового поиска Apache Lucene.
Tika поддерживает офисные форматы Microsoft (OLE и OOXML), OpenDocument, Apple iWork, PDF, RTF, ePub и FB2, MIME (mailbox) и др. Поддерживается извлечение метаданных из аудио-форматов и изображений, распаковка некоторых популярных форматов архивов.
Основные изменения по сравнению с 0.10:
- RTF: поддержка гиперссылок
- MS Word: поддержка Unicode дефисов
- Outlook: извлечение вложенных файлов
- MS Office: увеличение скорости
- OpenOffice: извлечение верхних и нижних колонтитулов
- PDF: корректное извлечение параграфов и опциональная поддержка аннотаций
- Определение языка/кодировки текстов: добавлена поддержка белорусского, каталонского, эсперанто, галийского, литовского, румынского, словацкого, словенского и украинского языков (русский язык и популярные в России кодировки поддерживаются и в предыдущих версиях Tika)
- Работа и конфигурация в OSGi окружении
- Удалены API, объявленные устаревшими в предыдущих версиях
>>> Подробности