Распознавание огромных текстов за 1 секунду - без OCR!

djvu, ocr, pdf, история успеха, распознавание текста

0

2

Прислали мне тут на днях несколько документов в виде pdf и djvu. Документы в свое время были получены путем скана бумажных архивов, и судя по виду итогового результата, бумажки эти многое повидали…

Попросили что-то сделать с этим, обновить видок, улучшить читаемость. Ну думаю, щас загуглю какую распознавалку, и будет норм. Может даже свободную… Нашлась гугловская приблуда (tesseract), да такая мощная оказалась, что даже самый обосраный текст берет! Да еще и несколько языков одновременно можно задать. Вообще круто распознает. Но вот беда, на 1 страницу уходит по 5 минут, а страниц то дофига…

Гуглю значит дальше. Нахожу poppler utils (набор всяких утилит для работы в pdf). Ну а там есть такая pdftotxt. И че вы думаете? Указываешь pdf документ, а она за ОДНУ СЕКУНДУ выдает вообще весь текст со всех страниц, причем безошибочно…

Но с djvu она работать не умеет, поэтому гуглю дальше. Нахожу все тот же Imagemagick, который по идее умеет работать с djvu… Он сделает мне кучу картинок из djvu документа, а дальше я их буду снова… распознавать тесерактом (по 5 минут на картинку, ага).

Продолжаю гуглить что-то типа pdftotxt для djvu. И таки нахожу охрененную штуку - djvulibre. Она есть в репах (в ubuntu даже установлена по умолчанию). Тоже куча утилит в пакете для обработки djvu. Меня интересовала утилита djvutxt. Указал ей djvu-документ на 120 страниц, и опять за ОДНУ СЕКУНДУ получил офигенный результат - полный текст документа в виде txt.

Не совсем понятно, над чем пыхтят распознавалки по 5 минут на страницу, если есть вот такие штуки?

←	wmWare ESXi 6.7 + Debian 11 + Cinnamont + xRDP = сильный тормоз

dd if=dev/sda1 | zstd - | dd of=/path_to_backups/fs.img.zst - так можно?

→

А секрет таится в уже кем-то распознанном текстовом слое в этих файлах.

~~cocucka~~ ★★★★☆
(26.01.23 16:45:27 MSK)

Ответ на: комментарий от cocucka 26.01.23 16:45:27 MSK

Тогда непонятно, как и кем он распознан, если это были обычные сканы?

bairos
(26.01.23 16:47:45 MSK) автор топика

Ответ на: комментарий от bairos 26.01.23 16:47:45 MSK

Компьютерными эльфами, очевидно же.

~~cocucka~~ ★★★★☆
(26.01.23 16:48:31 MSK)

Ответ на: комментарий от cocucka 26.01.23 16:48:31 MSK

Никто не будет таким заниматься. Документы сканят тысячами и отправляют в архив.

bairos
(26.01.23 16:52:16 MSK) автор топика

Это фиаско, братан.

~~DrBrown~~ ★
(26.01.23 16:53:51 MSK)

Ответ на: комментарий от DrBrown 26.01.23 16:53:51 MSK

Что-то ты целыми днями на лоре маринуешься. Какая унылая у тебя все-таки жизнь…

bairos
(26.01.23 16:56:26 MSK) автор топика

Ответ на: комментарий от bairos 26.01.23 16:56:26 MSK

Определенно, без клоунов жизнь была бы унылее.

~~DrBrown~~ ★
(26.01.23 16:58:20 MSK)

Ответ на: комментарий от bairos 26.01.23 16:52:16 MSK

Сканировали finereader’ом он автоматом сканированный документ распознает. Поэтому сканирование занимает больше времени.

einhander ★★★★★
(26.01.23 17:02:34 MSK)

Ответ на: комментарий от DrBrown 26.01.23 16:58:20 MSK

Ты себя переоцениваешь. Впрочем, ~~BadUser~~ недолго продержался.

Модераторам на заметку. Сколько там еще у товарища заготовлено акков?

bairos
(26.01.23 17:04:52 MSK) автор топика

Где же ты, друг анон, когда так нужен.

ddidwyll ★★★★
(26.01.23 17:10:41 MSK)

над чем пыхтят распознавалки по 5 минут на страницу, если есть вот такие штуки?

Над распознаванием текста, разумеется.

Aceler ★★★★★
(26.01.23 17:12:32 MSK)

Ответ на: комментарий от einhander 26.01.23 17:02:34 MSK

Спросил чела, вроде встроенной программой сканера делали, самой типовой. Не файнридер точно. Тут самый старый скан аж от 96го года. Файнридер тогда конечно был, но в конторе его не было, говорит.

bairos
(26.01.23 17:13:04 MSK) автор топика

Ответ на: комментарий от bairos 26.01.23 17:04:52 MSK

Ты не читаешь инструкции и выставляет себя на посмешище. Вот и правила ЛОРа ты похоже не читал.

~~DrBrown~~ ★
(26.01.23 17:14:33 MSK)

Ответ на: комментарий от Aceler 26.01.23 17:12:32 MSK

А зачем его распознавать, если все уже давно распознано (по словам ваших коллег-кармадрочеров), и запрятано в каком-то слое? И какие будут ваши доказательства? Где я могу проверить наличие/отсутствие этого слоя?

bairos
(26.01.23 17:16:00 MSK) автор топика

Ответ на: комментарий от bairos 26.01.23 17:16:00 MSK

RTFM

~~DrBrown~~ ★
(26.01.23 17:17:40 MSK)

Ответ на: комментарий от bairos 26.01.23 17:16:00 MSK

А зачем его распознавать, если все уже давно распознано (по словам ваших коллег-кармадрочеров),

Затем, что ты запустил программу для распознавания текста, она распознаёт текст и не смотрит, распознан он уже или нет.

Aceler ★★★★★
(26.01.23 17:21:39 MSK)

Ответ на: комментарий от bairos 26.01.23 17:16:00 MSK

Где я могу проверить наличие/отсутствие этого слоя?

Попробуй в какой-нибудь читалке pdf скопировать текст. Если получится - значит там уже есть все внутри.

gruy ★★★★★
(26.01.23 17:21:59 MSK)

Ответ на: комментарий от gruy 26.01.23 17:21:59 MSK

Попробуй в какой-нибудь читалке pdf скопировать текст. Если получится - значит там уже есть все внутри.

Ну попробовал, в Okular. Ничего там скопировать нельзя, даже в режиме рецензирования. А тем не менее (по словам кармадрочеров) - некий слой есть.

bairos
(26.01.23 17:24:32 MSK) автор топика

Ты открой этот скан в, например, Okular, ткни в значок «выделение текста» и пошукай мышкой по странице. Реально же выглядит, что есть текстовый слой. (Может ты просто открывал через недопрограмму неумеющую в выделение текста и поэтому решил ОЦээРить документы?

R_He_Po6oT ★★★★★
(26.01.23 17:30:16 MSK)

Ответ на: комментарий от bairos 26.01.23 17:13:04 MSK

Встроенная программа тоже может уметь распознавать. Так что опубликуй несекретный пример документа, тут тебе сразу укажут что есть в файле, а что нет.

einhander ★★★★★
(26.01.23 17:31:09 MSK)

Ответ на: комментарий от R_He_Po6oT 26.01.23 17:30:16 MSK

Поиск по тексту работает, но вручную скопировать ничего нельзя.

bairos
(26.01.23 17:33:00 MSK) автор топика

Ответ на: комментарий от bairos 26.01.23 17:33:00 MSK

Уу, колдунство.

ddidwyll ★★★★
(26.01.23 17:36:39 MSK)

Феерично. Особенно доставляет что даже осознав тот факт что он тупанул — ТС продолжает бороться, защищаться и что то доказывать. Вместо того чтобы поржать над собой.

Jameson ★★★★★
(26.01.23 17:57:51 MSK)

Не совсем понятно, над чем пыхтят распознавалки по 5 минут на страницу, если есть вот такие штуки?

еще спрошу - над чем пыхтит ЛОР-чик если есть такая клевая штука, как чатГПТ? настроил и ушел. прикинь сколько времени, сил, нервов будет сэкономлено!

olelookoe ★★★
(26.01.23 18:24:44 MSK)

Ответ на: комментарий от bairos 26.01.23 17:33:00 MSK

                       ---                                     
                    -        --                             
                --( /     \ )XXXXXXXXXXXXX                   
            --XXX(   O   O  )XXXXXXXXXXXXXXX-              
           /XXX(       U     )        XXXXXXX\               
         /XXXXX(              )--   XXXXXXXXXXX\             
        /XXXXX/ (      O     )   XXXXXX   \XXXXX\
        XXXXX/   /            XXXXXX   \   \XXXXX----        
        XXXXXX  /          XXXXXX         \  ----  -         
---     XXX  /          XXXXXX      \           ---        
  --  --  /      /\  XXXXXX            /     ---=         
    -        /    XXXXXX              '--- XXXXXX         
      --\/XXX\ XXXXXX                      /XXXXX         
        \XXXXXXXXX                        /XXXXX/
         \XXXXXX                         /XXXXX/         
           \XXXXX--  /                -- XXXX/       
            --XXXXXXX---------------  XXXXX--         
               \XXXXXXXXXXXXXXXXXXXXXXXX-            
                 --XXXXXXXXXXXXXXXXXX-

~~cocucka~~ ★★★★☆
(26.01.23 19:36:18 MSK)

ocrmypdf -l eng+rus Untitled.pdf OCRmyPDF.pdf

~~SerW~~
(26.01.23 22:59:08 MSK)

Давай я объясню, pdf это формат-контейнер, внутри могут быть изображения, звук, ссылки, шрифты и (внезапно!!!) текстовый слой. И еще много чего. Т.е. pdf - это не просто изображение которое ты видишь, это не графический формат, это намного больше. Там например могут быть сканы которым 30 лет и текстовый слой который добавили вчера. Поэтому то что ты так легко скопировал текстовый слой не удивительно, открою тебе еще большую тайну - в большинстве случаев ты можешь просто выделить текст в любом приложении для просмотра pdf и просто скопировать его. Да, вот просто выдели мышкой текст в pdf-документе и вставь куда тебе нужно, до чего дошел прогресс представляешь?

mbivanyuk ★★★★★
(27.01.23 03:44:10 MSK)

Документы в свое время были получены путем скана бумажных архивов

Интересно глянуть, насколько производительно такое сканирование у них.

Типа такой хероборы.

NDfan ★
(27.01.23 04:34:01 MSK)

Ответ на: комментарий от mbivanyuk 27.01.23 03:44:10 MSK

открою тебе еще большую тайну - в большинстве случаев ты можешь просто выделить текст в любом приложении для просмотра pdf и просто скопировать его.

Для ТС.
А если copy/paste текста не получается, то значит в pdf нет текстового слоя и распознавание будет идти не 1сек.

~~Forum0888~~
(27.01.23 07:22:41 MSK)

а нельзя ли найти конвертор djvu to pdf, и вторым способом?

~~honestvova~~
(27.01.23 12:14:26 MSK)

Ответ на: комментарий от honestvova 27.01.23 12:14:26 MSK

Там где по 5 минут - негры набирают в ворде на незнакомом языке, им гугл платит по банану за лист

~~honestvova~~
(27.01.23 12:16:00 MSK)

Ответ на: комментарий от bairos 26.01.23 17:13:04 MSK

Спросил чела, вроде встроенной программой сканера делали, самой типовой. Не файнридер точно.

А зачем спрашивать человека, когда то же самое можно извлечь из метаданных PDF-файла?

$ pdfinfo "Linux - 24 - Other VPNs.pdf"
Creator:         Impress
Producer:        LibreOffice 7.1
CreationDate:    Thu Apr 22 19:01:24 2021 PST
Custom Metadata: no
Metadata Stream: yes
Tagged:          yes
UserProperties:  no
Suspects:        no
Form:            none
JavaScript:      no
Pages:           24
Encrypted:       no
Page size:       793.701 x 446.457 pts
Page rot:        0
File size:       244214 bytes
Optimized:       no
PDF version:     1.6

AEP ★★★★★
(29.01.23 10:13:30 MSK)

←	wmWare ESXi 6.7 + Debian 11 + Cinnamont + xRDP = сильный тормоз

General

dd if=dev/sda1 | zstd - | dd of=/path_to_backups/fs.img.zst - так можно?

→

Похожие темы