Вышла новая версия библиотеки Apache Tika, предназначенной для извлечения текста, вложений и метаданных из документов в различных распространенных форматах. В настоящий момент библиотека поддерживает несколько десятков форматов, в том числе офисные документы Microsoft (OLE и OOXML), OpenDocument, PDF и другие.
Основные изменения в этой версии:
- добавлен режим сервера, позволяющий обращаться к Tika с использованием простого REST API (HTTP);
- большие улучшения в поддержке документов Apple iWork;
- новая библиотека для определения языка и кодировки текста, основанная на алгоритме определения языка/кодировки Mozilla.org;
- декомпрессия XZ и Pack200;
- возможность указать пароль для расшифровки зашифрованного документа в утилите командной строки;
- исправлено большое количество ошибок, в том числе проблема с извлечением не-OLE вложений в офисных документах.
>>> Подробности