LINUX.ORG.RU

Распознавание огромных текстов за 1 секунду - без OCR!

 , , , ,


0

2

Прислали мне тут на днях несколько документов в виде pdf и djvu. Документы в свое время были получены путем скана бумажных архивов, и судя по виду итогового результата, бумажки эти многое повидали…

Попросили что-то сделать с этим, обновить видок, улучшить читаемость. Ну думаю, щас загуглю какую распознавалку, и будет норм. Может даже свободную… Нашлась гугловская приблуда (tesseract), да такая мощная оказалась, что даже самый обосраный текст берет! Да еще и несколько языков одновременно можно задать. Вообще круто распознает. Но вот беда, на 1 страницу уходит по 5 минут, а страниц то дофига…

Гуглю значит дальше. Нахожу poppler utils (набор всяких утилит для работы в pdf). Ну а там есть такая pdftotxt. И че вы думаете? Указываешь pdf документ, а она за ОДНУ СЕКУНДУ выдает вообще весь текст со всех страниц, причем безошибочно…

Но с djvu она работать не умеет, поэтому гуглю дальше. Нахожу все тот же Imagemagick, который по идее умеет работать с djvu… Он сделает мне кучу картинок из djvu документа, а дальше я их буду снова… распознавать тесерактом (по 5 минут на картинку, ага).

Продолжаю гуглить что-то типа pdftotxt для djvu. И таки нахожу охрененную штуку - djvulibre. Она есть в репах (в ubuntu даже установлена по умолчанию). Тоже куча утилит в пакете для обработки djvu. Меня интересовала утилита djvutxt. Указал ей djvu-документ на 120 страниц, и опять за ОДНУ СЕКУНДУ получил офигенный результат - полный текст документа в виде txt.

Не совсем понятно, над чем пыхтят распознавалки по 5 минут на страницу, если есть вот такие штуки?



Последнее исправление: maxcom (всего исправлений: 5)

Ответ на: комментарий от einhander

Спросил чела, вроде встроенной программой сканера делали, самой типовой. Не файнридер точно. Тут самый старый скан аж от 96го года. Файнридер тогда конечно был, но в конторе его не было, говорит.

bairos
() автор топика
Ответ на: комментарий от Aceler

А зачем его распознавать, если все уже давно распознано (по словам ваших коллег-кармадрочеров), и запрятано в каком-то слое? И какие будут ваши доказательства? Где я могу проверить наличие/отсутствие этого слоя?

bairos
() автор топика
Ответ на: комментарий от bairos

А зачем его распознавать, если все уже давно распознано (по словам ваших коллег-кармадрочеров),

Затем, что ты запустил программу для распознавания текста, она распознаёт текст и не смотрит, распознан он уже или нет.

Aceler ★★★★★
()
Ответ на: комментарий от gruy

Попробуй в какой-нибудь читалке pdf скопировать текст. Если получится - значит там уже есть все внутри.

Ну попробовал, в Okular. Ничего там скопировать нельзя, даже в режиме рецензирования. А тем не менее (по словам кармадрочеров) - некий слой есть.

bairos
() автор топика

Ты открой этот скан в, например, Okular, ткни в значок «выделение текста» и пошукай мышкой по странице. Реально же выглядит, что есть текстовый слой. (Может ты просто открывал через недопрограмму неумеющую в выделение текста и поэтому решил ОЦээРить документы?

R_He_Po6oT ★★★★
()
Ответ на: комментарий от bairos

Встроенная программа тоже может уметь распознавать. Так что опубликуй несекретный пример документа, тут тебе сразу укажут что есть в файле, а что нет.

einhander ★★★★★
()

Феерично. Особенно доставляет что даже осознав тот факт что он тупанул — ТС продолжает бороться, защищаться и что то доказывать. Вместо того чтобы поржать над собой.

Jameson ★★★★★
()

Не совсем понятно, над чем пыхтят распознавалки по 5 минут на страницу, если есть вот такие штуки?

еще спрошу - над чем пыхтит ЛОР-чик если есть такая клевая штука, как чатГПТ? настроил и ушел. прикинь сколько времени, сил, нервов будет сэкономлено!

olelookoe ★★★
()
Ответ на: комментарий от bairos
                       ---                                     
                    -        --                             
                --( /     \ )XXXXXXXXXXXXX                   
            --XXX(   O   O  )XXXXXXXXXXXXXXX-              
           /XXX(       U     )        XXXXXXX\               
         /XXXXX(              )--   XXXXXXXXXXX\             
        /XXXXX/ (      O     )   XXXXXX   \XXXXX\
        XXXXX/   /            XXXXXX   \   \XXXXX----        
        XXXXXX  /          XXXXXX         \  ----  -         
---     XXX  /          XXXXXX      \           ---        
  --  --  /      /\  XXXXXX            /     ---=         
    -        /    XXXXXX              '--- XXXXXX         
      --\/XXX\ XXXXXX                      /XXXXX         
        \XXXXXXXXX                        /XXXXX/
         \XXXXXX                         /XXXXX/         
           \XXXXX--  /                -- XXXX/       
            --XXXXXXX---------------  XXXXX--         
               \XXXXXXXXXXXXXXXXXXXXXXXX-            
                 --XXXXXXXXXXXXXXXXXX-
cocucka ★★★★☆
()

Давай я объясню, pdf это формат-контейнер, внутри могут быть изображения, звук, ссылки, шрифты и (внезапно!!!) текстовый слой. И еще много чего. Т.е. pdf - это не просто изображение которое ты видишь, это не графический формат, это намного больше. Там например могут быть сканы которым 30 лет и текстовый слой который добавили вчера. Поэтому то что ты так легко скопировал текстовый слой не удивительно, открою тебе еще большую тайну - в большинстве случаев ты можешь просто выделить текст в любом приложении для просмотра pdf и просто скопировать его. Да, вот просто выдели мышкой текст в pdf-документе и вставь куда тебе нужно, до чего дошел прогресс представляешь?

mbivanyuk ★★★★★
()
Ответ на: комментарий от mbivanyuk

открою тебе еще большую тайну - в большинстве случаев ты можешь просто выделить текст в любом приложении для просмотра pdf и просто скопировать его.

Для ТС.
А если copy/paste текста не получается, то значит в pdf нет текстового слоя и распознавание будет идти не 1сек.

Forum0888
()
Ответ на: комментарий от bairos

Спросил чела, вроде встроенной программой сканера делали, самой типовой. Не файнридер точно.

А зачем спрашивать человека, когда то же самое можно извлечь из метаданных PDF-файла?

$ pdfinfo "Linux - 24 - Other VPNs.pdf"
Creator:         Impress
Producer:        LibreOffice 7.1
CreationDate:    Thu Apr 22 19:01:24 2021 PST
Custom Metadata: no
Metadata Stream: yes
Tagged:          yes
UserProperties:  no
Suspects:        no
Form:            none
JavaScript:      no
Pages:           24
Encrypted:       no
Page size:       793.701 x 446.457 pts
Page rot:        0
File size:       244214 bytes
Optimized:       no
PDF version:     1.6
AEP ★★★★★
()