Аналоги finereader

Подскажите аналоги finereader или лучше не тратить время на поиски, а под виндой пользоваться этой прогой?

tesseract может дать более-менее вменяемое качество. Но не finereader конечно. Если не готов жертвовать качеством – то под вайном идет только в путь. 11 версия вроде. Я пользуюсь.

anonymous
(02.11.20 21:13:04 MSK)

Ответ на: комментарий от anonymous 02.11.20 21:13:04 MSK

но как только разметка страницы отклоняется от стандартной, то есть появляются картинки, таблицы, вставочки, то tesseract начинает всасывать с заглотом у finereader. Такие вот пироги.

anonymous
(02.11.20 21:21:05 MSK)

Ссылка

Ответ на: комментарий от anonymous 02.11.20 21:13:04 MSK

под вайном идет только в путь

Когда много лет назад пробовал оно работало «в путь», кроме одной важной функции - работы со сканером. Как с этим сейчас?

Qwentor ★★★★★
(02.11.20 21:27:56 MSK)

Ответ на: комментарий от Qwentor 02.11.20 21:27:56 MSK

ни разу не пробовал, кстати. Сканирую всегда в pdf другой программой: simple-scan.

anonymous
(02.11.20 21:29:33 MSK)

Ссылка

Как ни странно finereader который под линукс. Tesseract вполне годно распознает plain text, а вот в форматирование и таблицы не может. Есть некое подобие ocrfeeder, но с finereader не сравнится. Я использую tesseract в составе башскрипта для снятия скриншота и дальнейшего распознавания и вставки без форматирования.

einhander ★★★★★
(02.11.20 21:49:24 MSK)

Ответ на: комментарий от einhander 02.11.20 21:49:24 MSK

ЕГа е ЕЛО п Шаецето е й Кодде о арДИТе ИЛ сеаа ееа аТОЛ ее) ор ога ЕТеЦИ Ь ЕОа ААа Я- 1еа о1е о оЕН ото ее НЕ ауе ее еЙ тто л келя < уИа КЕЙ Де н оТЯ ИЕВ но с Ппегеайег не сравнится. Я использую ‘еззегас! в составе башскрипта для снятия скриншота и дальнейшего распознавания и вставки без ПУОН ЫЕ Е ОИИВ

вот как tesseract распознал ваш пост :^)

anonymous
(02.11.20 22:00:55 MSK)

Ответ на: комментарий от anonymous 02.11.20 22:00:55 MSK

Как ни странно Ппегеачег который под линукс. Теззегас! вполне годно распознает р1атп 1еху, а вот в форматирование и таблицы не может. Есть некое подобие оспеечег, но с Нпегеадег не сравнится. Я использую {еззегас! в составе башскрипта для снятия скриншота и дальнейшего распознавания и вставки без СЕИ е ЕООВ

еще. непонятно от чего зависит

anonymous
(02.11.20 22:14:33 MSK)

Ответ на: комментарий от anonymous 02.11.20 22:14:33 MSK

eng+rus же

einhander ★★★★★
(02.11.20 22:52:15 MSK)

Ответ на: комментарий от einhander 02.11.20 22:52:15 MSK

не помогает

#!/usr/bin/env bash
#langs=(eng ara chi_sim chi_tra deu ell fin heb hun jpn kor nld rus tur)
#lang=$(printf '%s\n' "${langs[@]}" | ~/.local/bin/menu "$@")
#maim -us | tesseract --dpi 145 -l ${lang} - - | xsel -bi
maim -us | tesseract --dpi 145 -l rus+eng - - | xsel -bi

еще блин результат заманаешься вставлять в лор т.к.

0xc is not a legal XML character

поэтому только скриншот - https://0x0.st/idjN.png

anonymous
(02.11.20 23:06:43 MSK)

Ответ на: комментарий от anonymous 02.11.20 23:06:43 MSK

tesseract –dpi 145

Я как-то пользовался распознавалкой текста, виндовой естественно, так вот, для корректного распознавания текста DPI должно быть не ниже чем 360.

torvn77 ★★★★★
(02.11.20 23:12:20 MSK)

Ответ на: комментарий от torvn77 02.11.20 23:12:20 MSK

на экране столько нет

anonymous
(02.11.20 23:13:18 MSK)

Ответ на: комментарий от anonymous 02.11.20 23:13:18 MSK

Есть апскейл и он помогает. Как доберусь до компа, гляну сколько там dpi в тесеракт передается.

einhander ★★★★★
(02.11.20 23:15:22 MSK)

Ссылка

Ответ на: комментарий от anonymous 02.11.20 23:13:18 MSK

Попробуй поднять dpi в редакторе, может поможет.

torvn77 ★★★★★
(02.11.20 23:15:22 MSK)

Ответ на: комментарий от torvn77 02.11.20 23:15:22 MSK

в каком редакторе? я поставил 360 - тот же самый результат

anonymous
(02.11.20 23:20:01 MSK)

Ответ на: комментарий от anonymous 02.11.20 23:20:01 MSK

Ну значит не прокатило.
Суть в том, что буквы на изображених с низким разрешением получаются слишком скачкообразными и рваными.

В общем попробуй увеличить маштаб в браузере с которого делаешь скриншот.

torvn77 ★★★★★
(02.11.20 23:23:27 MSK)

Ответ на: комментарий от torvn77 02.11.20 23:23:27 MSK

причём тут масштаб и dpi? оно алфавит не может правильно выбрать.

anonymous
(03.11.20 00:48:17 MSK)

Ответ на: комментарий от anonymous 03.11.20 00:48:17 MSK

причём тут масштаб и dpi?

При том сколько точек на букву.

torvn77 ★★★★★
(03.11.20 01:07:20 MSK)

Ссылка

Ответ на: комментарий от anonymous 02.11.20 23:06:43 MSK

Как ни странно Япегеадег который под линукс.
Теззегас вполне годно распознает ра {ехк, а вот в Форматирование >и таблицы не может.
Есть некое подобие осПеечег, но с Япегеадег не сравнится.
Я использую {еззегас в составе башскрипта для снятия скриншота и >дальнейшего распознавания и вставки без форматирования.

Отдельный английский или предложения на английском распознает замечательно.

P.S. У меня апскейл средствами image-magic 300%.

einhander ★★★★★
(03.11.20 11:45:08 MSK)

Ответ на: комментарий от einhander 02.11.20 21:49:24 MSK

cuneiform 1.1.0 for linux

Как ни странно finereader который под пинукс. Tesseract вполне годно распознает ptain text, а вот в форматирование и таблицы не может. Есть некое подобие ocrfeeder, но с finereader не сравнится. Я использую tesseract в составе башскрипта для снятия скриншота и дапьнейшего распознавания и вставки без форматирования.

convert -negate -adaptive-resize 300% + cuneiform -f text -l ruseng

anonymous
(04.11.20 18:13:04 MSK)

Ответ на: комментарий от anonymous 04.11.20 18:13:04 MSK

cuneiform лучше читает с экрана, а вот сканы увы хуже. Но этому наблюдению уже лет 5, за cuneiform не слежу, он развивается?

P.S. Для распознавания pdf использую pdfxchange viewer в вайне, он работает быстрее чем ocrmypdf+tesseract.

einhander ★★★★★
(04.11.20 19:09:38 MSK)
Последнее исправление: einhander 04.11.20 19:12:12 MSK (всего исправлений: 1)

Ответ на: комментарий от einhander 04.11.20 19:09:38 MSK

cuneiform лучше читает с экрана, а вот сканы увы хуже

Дык зависит от. Некоторые сканы и tesseract как бессвязную кашу вываливает (и 3-й, и 4-й), а cuneiform их прилично распознает. И наоборот. Так что при распознавании djvu десяток случайных страниц распознаю им и тессерактом, чтобы решить, чем распознавать весь документ. Получается примерно 50/50.

за cuneiform не слежу, он развивается?

По-моему нет, только баги правят. Правда я как его собрал последний раз года полтора назад, так обновления больше и не проверял.

anonymous
(04.11.20 20:00:41 MSK)

Ссылка

Перацкую венду в виртуалку, в венду перацкий finereader. Рекомендую 14-й, он по-моему самый лучший сейчас из всех версий и лучше последнего сейчас - 15-го.

Где-то так. Opensource-ные OCR - это боль и страдание для серьёзной работы. Хотя если качество распознавания не так важно, как автоматизация, то лучше опенсорс, ибо тут уже проприетарные распознавалки - боль и страдание.

Из опенсорсных - самый лучший это tesseract, на втором месте - cuneiform. Tesseract, если всерьёз использовать, надо натренировать на нужный текст, статьи как это делать гуглятся. Тренированный tesseract заметно лучше распознает, но чудес все-равно не жди

anonymous
(04.11.20 20:26:18 MSK)

Ответ на: комментарий от anonymous 04.11.20 20:26:18 MSK

А да, чуть не забыл. Предварительно для тессеракта очень сильно желательно, для файнридер просто желательно обработать и подготовить сканы к распознаванию. Рекомендую с помощью ScanTailor. Если есть время и силы разбираться - ScanKromsator

anonymous
(04.11.20 20:33:49 MSK)

Cuneiform мне эту программу расхваливали точнее ее версию под windiws. Сам не пользовался.

~~XoFfiCEr~~ ★★☆☆
(04.11.20 20:47:44 MSK)
Последнее исправление: XoFfiCEr 04.11.20 20:48:11 MSK (всего исправлений: 1)

Ответ на: комментарий от XoFfiCEr 04.11.20 20:47:44 MSK

Cuneiform застыл по качеству примерно в 1999-2000 и с тех пор не развивался. Через лет 9 его движок заопенсорсили, а саму программу перевели во freeware. Надежды на улучшение движка не оправдались, его просто быстро портировали под линукс и с тех пор только мелкие баги правили. А ведь даже теоретический материал выкладывали, но никто не стал в математику лезть

anonymous
(04.11.20 20:55:51 MSK)

Ответ на: комментарий от anonymous 04.11.20 20:55:51 MSK

грустно

~~XoFfiCEr~~ ★★☆☆
(04.11.20 20:56:42 MSK)

Ссылка

маленькая кучка но под вендой , вообщем не много таких программ

~~Gennadevich~~ ★
(04.11.20 23:10:15 MSK)

Ссылка

Подскажите аналоги finereader или лучше не тратить время на поиски

Для чего? Что хотим? Какая цель? Что делаем?

anonymous
(04.11.20 23:32:02 MSK)

Ссылка

Ответ на: комментарий от anonymous 04.11.20 18:13:04 MSK

а теперь скажи как этот cuneiform запихнуть в скрипт, по типу того что выше

anonymous
(05.11.20 10:32:10 MSK)

Ссылка

Ответ на: комментарий от anonymous 02.11.20 22:00:55 MSK

еззегас

Ну всё, теперь это будет всеобщая кличка для Tesseract. Вроде идутвука.

А если серьёзно — его же вроде как для нормального качества обучать надо, или я с чем-то путаю?

hobbit ★★★★★
(05.11.20 10:49:09 MSK)
Последнее исправление: hobbit 05.11.20 10:50:45 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от anonymous 04.11.20 20:33:49 MSK

О, есть ещё на ЛОРе толковые анонимусы, я раньше про ScanKromsator не слыхал. Погуглил - оно проприетарное, под Windows. Под вайном идёт хоть?

hobbit ★★★★★
(05.11.20 10:56:12 MSK)

Ответ на: комментарий от hobbit 05.11.20 10:56:12 MSK

Под вайном идёт хоть?

Согласно википедии — идёт.

Только вот

Написана на Delphi, MMX ассемблер

А сейчас MMX начали выкидывать из процов. Ну да ладно, ещё долго можно будет найти CPU с MMX, я думаю.

greenman ★★★★★
(05.11.20 11:03:25 MSK)
Последнее исправление: greenman 05.11.20 11:06:03 MSK (всего исправлений: 2)

Ответ на: комментарий от hobbit 05.11.20 10:56:12 MSK

оно проприетарное, под Windows.

Не очень то проприетарное, просто закрытое. А чем тебе нативный scantailor не угодил:

anonymous
(05.11.20 11:05:31 MSK)

Ответ на: комментарий от anonymous 05.11.20 11:05:31 MSK

Он не то, чтобы не угодил, просто я прочитал фразу:

Если есть время и силы разбираться - ScanKromsator

Наверное, подразумевается, что это время и силы должны как-то окупиться, то есть по достигаемым результатам ScanKromsator будет круче? Или нет?

hobbit ★★★★★
(05.11.20 11:08:59 MSK)

Ответ на: комментарий от hobbit 05.11.20 10:56:12 MSK

про ScanKromsator не слыхал

Для бинаризации не обязателен ни scantailor, ни ScanKromsator. Во многих случаях вполне достаточно imagemagick/graphicsmagick:

convert +dither -colors 2 -normalize -compress Group4 you.png you.bw.tiff
gm convert +dither -colors 2 -normalize -compress Group4 you.png you.bw.tiff

anonymous
(05.11.20 11:11:19 MSK)

Ссылка

Ответ на: комментарий от hobbit 05.11.20 11:08:59 MSK

Или нет?

Скорее всего. Функционал у ScanKromsator посолиднее, но станет ли от этого обработка проще?

anonymous
(05.11.20 11:13:28 MSK)

Ссылка

кароче у меня cuneiform не завелся. cuneiform-out.txt пустой

cuneiform -f text -l ruseng ~/pic/1604561860.png

1604561860.png это скриншот того самого поста, без всяких обработок

anonymous
(05.11.20 11:16:58 MSK)

Ответ на: комментарий от anonymous 05.11.20 11:16:58 MSK

без всяких обработок

А говорили на ЛОРе дурных нема. Полно!

anonymous
(05.11.20 11:45:04 MSK)

Ответ на: комментарий от anonymous 05.11.20 11:45:04 MSK

ну и нахер тогда его

anonymous
(05.11.20 12:07:34 MSK)

Ссылка

Ответ на: комментарий от einhander 03.11.20 11:45:08 MSK

У меня апскейл средствами image-magic 300%.

Imagemagick слишком жирный, жрущий и во многих местах тугой. Для таких целей есть более «модные» средства: https://github.com/ImageProcessing-ElectronicPublications/imageworsener

anonymous
(05.11.20 15:16:00 MSK)

Ответ на: комментарий от anonymous 05.11.20 15:16:00 MSK

Его плюс в том, что он есть почти везде. А так, да притензии к нему есть.

einhander ★★★★★
(05.11.20 16:52:28 MSK)

Ответ на: комментарий от hobbit 05.11.20 11:08:59 MSK

Tailor и kromsator нужны в первую очередь для создания хорошей электронной книги, нежели распознавания текста. Finereader нужен в первую очередь для сохранения форматирования книги и перегонки в Ворд. Для технической литературы формат Ворда для меня неприемлем. Для добавления текстового слоя к djvu и pdf tesseract вполне достаточен.

einhander ★★★★★
(05.11.20 16:58:10 MSK)

Ответ на: комментарий от einhander 05.11.20 16:52:28 MSK

он есть почти везде

Не везде. pnmscale из Netpbm тоже у многих есть. И он не жрёт как сволочь память!

anonymous
(05.11.20 17:10:19 MSK)

Ответ на: комментарий от einhander 05.11.20 16:58:10 MSK

для создания хорошей электронной книги

Растровый текст уже сходу делает книгу нехорошей. Другое дело, что даже ручного векторизатора на пайтоне никто не сподобился соорудить. Хотя известно почему - на пайтоне полная байда с метриками в reportlab, подогнать текст под прямоугольник можно только методом «научного» многотыканья.

anonymous
(05.11.20 17:15:11 MSK)

Ответ на: комментарий от anonymous 05.11.20 17:10:19 MSK

Ну я же сказал, что почти))

einhander ★★★★★
(05.11.20 17:20:00 MSK)

Ссылка

Ответ на: комментарий от anonymous 05.11.20 17:15:11 MSK

Я бы с ходу согласился, но нет. У меня рядом лежат две книги 3,5Мб djvu на 160 страниц и 45Мб pdf весь из себя векторный на 100 страниц. И первый гораздо удобнее за счёт своего небольшого размера. А так да, вектор по умолчанию лучше.

einhander ★★★★★
(05.11.20 17:24:25 MSK)

Ответ на: комментарий от einhander 05.11.20 17:24:25 MSK

Я бы с ходу согласился, но нет.

Твое личное дело.

две книги 3,5Мб djvu на 160 страниц и 45Мб pdf весь из себя векторный на 100 страниц.

Весь?! Мне «весь» не нужен! Мне только текст векторный нужен, чтобы я его поверх чего угодно наложить мог (в отличии от растра), а всё остальное извольте в растр. Ну если это не так, то вбейте гвоздь в голову тому «манагеру», который эту книгу состряпал.

anonymous
(05.11.20 17:30:17 MSK)

Ответ на: комментарий от anonymous 05.11.20 17:30:17 MSK

В том то и суть что текст весь векторный в нем.

einhander ★★★★★
(05.11.20 21:15:25 MSK)

Ответ на: комментарий от hobbit 05.11.20 10:56:12 MSK

я раньше про ScanKromsator не слыхал. Погуглил - оно проприетарное, под Windows. Под вайном идёт хоть?

Оно хотя не опенсорс, но чисто freeware. Под вайном идёт.

anonymous
(05.11.20 21:29:03 MSK)

Ссылка

Ответ на: комментарий от greenman 05.11.20 11:03:25 MSK

А сейчас MMX начали выкидывать из процов. Ну да ладно, ещё долго можно будет найти CPU с MMX, я думаю.

Можно подробнее про выкидывание, а то даже слухов не нашёл. Единственно из некоторых компиляторов собираются убрать. Про CPU и речи не было

anonymous
(05.11.20 21:31:53 MSK)

cuneiform 1.1.0 for linux

Похожие темы