LINUX.ORG.RU

Выпуск веб-приложения для работы с отсканированными документами paperless-ngx 1.8.0

 , , ,


2

1

Paperless-ngx — веб-приложение для работы с документами, которое преобразует бумажные документы в электронные, доступные для полнотекстового поиска, скачивания и хранения онлайн.

Paperless-ngx — это ответвление от проекта paperless-ng (который, в свою очередь, является ответвлением оригинального проекта paperlsess), представляет собой веб-приложение на базе Python-фреймворка Django. После загрузки отсканированного документа любым доступным способом (по FTP, через веб-интерфейс, через Android приложение, по электронной почте через IMAP), программа осуществляет OCR, используя движок Tesseract, далее в интерфейсе доступно тегирование, поиск, а также скачивание PDF/A версии документа.

В новой версии:

  • Скрипты пре/пост обработки используют переменные окружения вместо аргументов командной строки.
  • Миниатюры в веб-интерфейсе переведены в формат WebP вместо PNG.
  • Настройки веб-интерфейса сохраняются в базе данных.
  • При смене языка документа в интерфейсе появляется подсказка о необходимости перезагрузить страницу.
  • При возникновении ошибки связи с Redis показывается более подробная информация.
  • В веб-интерфейсе добавлена возможность просмотра очереди документов на обработку.
  • Прочие улучшения и исправления ошибок.

Посмотреть демоверсию можно на https://demo.paperless-ngx.com, логин/пароль demo/demo.

>>> Подробности



Проверено: maxcom ()
Последнее исправление: DoTheGNU (всего исправлений: 1)

2 вопроса:

  1. Этот Тесеракт работает офлайн ?
  2. Если джанго внутри то какой минимум питон нужен ? Если снаружи то какой минимум Джанго нужен ?
mx__ ★★★★★
()
Ответ на: комментарий от mx__

Этот Тесеракт работает офлайн

да

Если джанго внутри то какой минимум питон нужен ? Если снаружи то какой минимум Джанго нужен ?

Последние джанго требуют питон не ниже 3.9, если не ошибаюсь. Обычно их ставят в env, так что можно поставить и джангу и питон и его расширения нужной версии не трогая систему.

AVL2 ★★★★★
()

Выпуск веб-приложения

Забавно, что раньше LOR’овцы были готовы друг-другу глотки перегрызть за приставку «веб» в названии и в содержании (самого приложения), теперь дело обстоит иначе. :)

//Возможно, это зависит от самого содержания предмета, хотя вряд ли.


По поводу самого paperless-ngx. Есть у меня куча «физических» книжек, которые были переведены в «электронный» вид с помощью paperless-ngx без каких-либо проблем.

TagMoon
()
Последнее исправление: TagMoon (всего исправлений: 2)

скачивание PDF/A версии документа

Если я правильно понял то pdf/a получается при ocr, и в других случаях его вытащить нельзя.

А так удачи авторам, посмотрел requirements.txt, посочувствовал, к сожалению помимо коммерческого pspdfkit и полукоммерческого-полуAGPL mupdf ни одной нормальной либы которая умеет пдф пока нету, тем более для пистона.

upcFrost ★★★★★
()

Очешуеть. По пунктам:

  1. Скрипты пре/пост обработки используют переменные окружения вместо аргументов командной строки. - что с тобой не так? О_о

  2. Настройки веб-интерфейса сохраняются в базе данных - ??? О_О

  3. При смене языка документа в интерфейсе появляется подсказка о необходимости перезагрузить страницу - до этого было без подсказки? (сарказм)

  4. При возникновении ошибки связи с Redis показывается более подробная информация - было что до этого? О_о

Anoxemian ★★★★★
()
Ответ на: комментарий от mx__

Сама джанга да. Но расширения уже требуют. У меня проблемки возникли с расширением easy-pdf Подозреваю, что здесь без нее не обощлось.

AVL2 ★★★★★
()
Ответ на: комментарий от AVL2

Странно, я лет 5 назад кропал на питоне и там мне понадбилось генерить пдф, так была какая то либа она работала что с 2х что с 3х питоном…

P.S. https://pypi.org/project/reportlab/

mx__ ★★★★★
()
Последнее исправление: mx__ (всего исправлений: 1)
Ответ на: комментарий от Anoxemian

Новость скорее про сам софт, чем не про конкретный ченджлог. На лоре эта программа раньше не упоминалась, насколько я могу судить.

DoTheGNU
() автор топика

Объясните, проблемы с распознаванием кириллицы – это особенность демо-ресурса?

Нашел кем-то любезно загруженный документ, поискал его содержимое, не нашел, посмотрел распознанное? содержимое, а там мешанина из букв:

CMPABNEHHE Ne (a)
romavew, (000 Tipomeu @
nape 1620000, Ceepanosccan on, r Exaepmyer, yn Gocneuses, 40 a)
VHH/KTIM nposaeua 12845678912 / 125456789 28)
Teymornpewmen weroampec
ssh2 ★★★★★
()
Ответ на: комментарий от TagMoon

Забавно, что раньше LOR’овцы были готовы друг-другу глотки перегрызть за приставку «веб» в названии и в содержании (самого приложения), теперь дело обстоит иначе. :)

Не путай десктопное приложение и портал для коллективной работы. Никто не гонит на сам ЛОР, что это сайт в браузере.

AVL2 ★★★★★
()
Ответ на: комментарий от mx__

тогда так и было. Но там по сути обертка для хромиума была. А теперь уже сделали более менее полноценный рендеринг.

AVL2 ★★★★★
()
Ответ на: комментарий от ssh2

Скорее, это особенность движка распознавания.

Я не настоящий сварщик, но насколько мне известно, чтобы Tesseract качественно работал с кириллицей (и не только с ней), его надо обучать.

Вот одна из статей на эту тему. Когда-то попадался более подробный текст, с примерами распознавания именно русских шрифтов и данными (чуть ли не на хабре), но сейчас его найти навскидку не могу.

hobbit ★★★★★
()
Ответ на: комментарий от AVL2

Немного не понял. Хромиум тут не причем.

mx__ ★★★★★
()
Ответ на: комментарий от hobbit

Обучать свою модель не обязательно, обязательно указать языки (модели), которые применимы для данного текста. Хорошие модели можно взять готовые прямо у разработчиков тессеракта.

token_polyak ★★★★★
()

Таки шо, tesseract научился с кирилицей и русским языком работать? Или как обычно - англицкий искаропки, а для кириллицы долбайтесь как хотите, становитесь экспертами по tesseract, разберайтесь как проводить обучение, находите корпус текстов с разметкой или выискивайте готовые модели и разберайтесь как подсовывать их в систему. Да, это должен знать и уметь каждый русскоязычный пользователь, каждый русскоязычный пользователь должен не пользоваться программой, а тратить свои дни на настройку этой дичи.

Xintrea ★★★★★
()
Ответ на: комментарий от Xintrea

Таки шо, tesseract научился с кирилицей и русским языком работать?

Нормально спросить не судьба, надо завернуть в сарказм?
Да научился.

st4l1k ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.