LINUX.ORG.RU

Подскажите аналоги finereader или лучше не тратить время на поиски, а под виндой пользоваться этой прогой?

tesseract может дать более-менее вменяемое качество. Но не finereader конечно. Если не готов жертвовать качеством – то под вайном идет только в путь. 11 версия вроде. Я пользуюсь.

anonymous
()
Ответ на: комментарий от anonymous

но как только разметка страницы отклоняется от стандартной, то есть появляются картинки, таблицы, вставочки, то tesseract начинает всасывать с заглотом у finereader. Такие вот пироги.

anonymous
()
Ответ на: комментарий от anonymous

под вайном идет только в путь

Когда много лет назад пробовал оно работало «в путь», кроме одной важной функции - работы со сканером. Как с этим сейчас?

Qwentor ★★★★★
()
Ответ на: комментарий от Qwentor

ни разу не пробовал, кстати. Сканирую всегда в pdf другой программой: simple-scan.

anonymous
()

Как ни странно finereader который под линукс. Tesseract вполне годно распознает plain text, а вот в форматирование и таблицы не может. Есть некое подобие ocrfeeder, но с finereader не сравнится. Я использую tesseract в составе башскрипта для снятия скриншота и дальнейшего распознавания и вставки без форматирования.

einhander ★★★★★
()
Ответ на: комментарий от einhander

ЕГа е ЕЛО п Шаецето е й Кодде о арДИТе ИЛ сеаа ееа аТОЛ ее) ор ога ЕТеЦИ Ь ЕОа ААа Я- 1еа о1е о оЕН ото ее НЕ ауе ее еЙ тто л келя < уИа КЕЙ Де н оТЯ ИЕВ но с Ппегеайег не сравнится. Я использую ‘еззегас! в составе башскрипта для снятия скриншота и дальнейшего распознавания и вставки без ПУОН ЫЕ Е ОИИВ

вот как tesseract распознал ваш пост :^)

anonymous
()
Ответ на: комментарий от anonymous

Как ни странно Ппегеачег который под линукс. Теззегас! вполне годно распознает р1атп 1еху, а вот в форматирование и таблицы не может. Есть некое подобие оспеечег, но с Нпегеадег не сравнится. Я использую {еззегас! в составе башскрипта для снятия скриншота и дальнейшего распознавания и вставки без СЕИ е ЕООВ

еще. непонятно от чего зависит

anonymous
()
Ответ на: комментарий от einhander

не помогает

#!/usr/bin/env bash
#langs=(eng ara chi_sim chi_tra deu ell fin heb hun jpn kor nld rus tur)
#lang=$(printf '%s\n' "${langs[@]}" | ~/.local/bin/menu "$@")
#maim -us | tesseract --dpi 145 -l ${lang} - - | xsel -bi
maim -us | tesseract --dpi 145 -l rus+eng - - | xsel -bi

еще блин результат заманаешься вставлять в лор т.к.

0xc is not a legal XML character

поэтому только скриншот - https://0x0.st/idjN.png

anonymous
()
Ответ на: комментарий от anonymous

tesseract –dpi 145

Я как-то пользовался распознавалкой текста, виндовой естественно, так вот, для корректного распознавания текста DPI должно быть не ниже чем 360.

torvn77 ★★★★★
()
Ответ на: комментарий от anonymous

Есть апскейл и он помогает. Как доберусь до компа, гляну сколько там dpi в тесеракт передается.

einhander ★★★★★
()
Ответ на: комментарий от anonymous

Ну значит не прокатило.
Суть в том, что буквы на изображених с низким разрешением получаются слишком скачкообразными и рваными.

В общем попробуй увеличить маштаб в браузере с которого делаешь скриншот.

torvn77 ★★★★★
()
Ответ на: комментарий от anonymous

причём тут масштаб и dpi?

При том сколько точек на букву.

torvn77 ★★★★★
()
Ответ на: комментарий от anonymous

Как ни странно Япегеадег который под линукс.
Теззегас вполне годно распознает ра {ехк, а вот в Форматирование >и таблицы не может.
Есть некое подобие осПеечег, но с Япегеадег не сравнится.
Я использую {еззегас в составе башскрипта для снятия скриншота и >дальнейшего распознавания и вставки без форматирования.

Отдельный английский или предложения на английском распознает замечательно.

P.S. У меня апскейл средствами image-magic 300%.

einhander ★★★★★
()
Ответ на: комментарий от einhander

cuneiform 1.1.0 for linux

Как ни странно finereader который под пинукс. Tesseract вполне годно распознает ptain text, а вот в форматирование и таблицы не может. Есть некое подобие ocrfeeder, но с finereader не сравнится. Я использую tesseract в составе башскрипта для снятия скриншота и дапьнейшего распознавания и вставки без форматирования.


convert -negate -adaptive-resize 300% + cuneiform -f text -l ruseng

anonymous
()
Ответ на: комментарий от anonymous

cuneiform лучше читает с экрана, а вот сканы увы хуже. Но этому наблюдению уже лет 5, за cuneiform не слежу, он развивается?

P.S. Для распознавания pdf использую pdfxchange viewer в вайне, он работает быстрее чем ocrmypdf+tesseract.

einhander ★★★★★
()
Последнее исправление: einhander (всего исправлений: 1)
Ответ на: комментарий от einhander

cuneiform лучше читает с экрана, а вот сканы увы хуже

Дык зависит от. Некоторые сканы и tesseract как бессвязную кашу вываливает (и 3-й, и 4-й), а cuneiform их прилично распознает. И наоборот. Так что при распознавании djvu десяток случайных страниц распознаю им и тессерактом, чтобы решить, чем распознавать весь документ. Получается примерно 50/50.

за cuneiform не слежу, он развивается?

По-моему нет, только баги правят. Правда я как его собрал последний раз года полтора назад, так обновления больше и не проверял.

anonymous
()

Перацкую венду в виртуалку, в венду перацкий finereader. Рекомендую 14-й, он по-моему самый лучший сейчас из всех версий и лучше последнего сейчас - 15-го.

Где-то так. Opensource-ные OCR - это боль и страдание для серьёзной работы. Хотя если качество распознавания не так важно, как автоматизация, то лучше опенсорс, ибо тут уже проприетарные распознавалки - боль и страдание.

Из опенсорсных - самый лучший это tesseract, на втором месте - cuneiform. Tesseract, если всерьёз использовать, надо натренировать на нужный текст, статьи как это делать гуглятся. Тренированный tesseract заметно лучше распознает, но чудес все-равно не жди

anonymous
()
Ответ на: комментарий от anonymous

А да, чуть не забыл. Предварительно для тессеракта очень сильно желательно, для файнридер просто желательно обработать и подготовить сканы к распознаванию. Рекомендую с помощью ScanTailor. Если есть время и силы разбираться - ScanKromsator

anonymous
()
Ответ на: комментарий от XoFfiCEr

Cuneiform застыл по качеству примерно в 1999-2000 и с тех пор не развивался. Через лет 9 его движок заопенсорсили, а саму программу перевели во freeware. Надежды на улучшение движка не оправдались, его просто быстро портировали под линукс и с тех пор только мелкие баги правили. А ведь даже теоретический материал выкладывали, но никто не стал в математику лезть

anonymous
()

маленькая кучка но под вендой , вообщем не много таких программ

Gennadevich
()

Подскажите аналоги finereader или лучше не тратить время на поиски

Для чего? Что хотим? Какая цель? Что делаем?

anonymous
()
Ответ на: комментарий от anonymous

а теперь скажи как этот cuneiform запихнуть в скрипт, по типу того что выше

anonymous
()
Ответ на: комментарий от anonymous

еззегас

Ну всё, теперь это будет всеобщая кличка для Tesseract. Вроде идутвука.

А если серьёзно — его же вроде как для нормального качества обучать надо, или я с чем-то путаю?

hobbit ★★★★★
()
Последнее исправление: hobbit (всего исправлений: 1)
Ответ на: комментарий от anonymous

О, есть ещё на ЛОРе толковые анонимусы, я раньше про ScanKromsator не слыхал. Погуглил - оно проприетарное, под Windows. Под вайном идёт хоть?

hobbit ★★★★★
()
Ответ на: комментарий от hobbit

Под вайном идёт хоть?

Согласно википедии — идёт.

Только вот

Написана на Delphi, MMX ассемблер

А сейчас MMX начали выкидывать из процов. Ну да ладно, ещё долго можно будет найти CPU с MMX, я думаю.

greenman ★★★★★
()
Последнее исправление: greenman (всего исправлений: 2)
Ответ на: комментарий от hobbit

оно проприетарное, под Windows.

Не очень то проприетарное, просто закрытое. А чем тебе нативный scantailor не угодил:

anonymous
()
Ответ на: комментарий от anonymous

Он не то, чтобы не угодил, просто я прочитал фразу:

Если есть время и силы разбираться - ScanKromsator

Наверное, подразумевается, что это время и силы должны как-то окупиться, то есть по достигаемым результатам ScanKromsator будет круче? Или нет?

hobbit ★★★★★
()
Ответ на: комментарий от hobbit

про ScanKromsator не слыхал

Для бинаризации не обязателен ни scantailor, ни ScanKromsator. Во многих случаях вполне достаточно imagemagick/graphicsmagick:

convert +dither -colors 2 -normalize -compress Group4 you.png you.bw.tiff
gm convert +dither -colors 2 -normalize -compress Group4 you.png you.bw.tiff
anonymous
()
Ответ на: комментарий от hobbit

Или нет?

Скорее всего. Функционал у ScanKromsator посолиднее, но станет ли от этого обработка проще?

anonymous
()

кароче у меня cuneiform не завелся. cuneiform-out.txt пустой

cuneiform -f text -l ruseng ~/pic/1604561860.png

1604561860.png это скриншот того самого поста, без всяких обработок

anonymous
()
Ответ на: комментарий от hobbit

Tailor и kromsator нужны в первую очередь для создания хорошей электронной книги, нежели распознавания текста. Finereader нужен в первую очередь для сохранения форматирования книги и перегонки в Ворд. Для технической литературы формат Ворда для меня неприемлем. Для добавления текстового слоя к djvu и pdf tesseract вполне достаточен.

einhander ★★★★★
()
Ответ на: комментарий от einhander

он есть почти везде

Не везде. pnmscale из Netpbm тоже у многих есть. И он не жрёт как сволочь память!

anonymous
()
Ответ на: комментарий от einhander

для создания хорошей электронной книги

Растровый текст уже сходу делает книгу нехорошей. Другое дело, что даже ручного векторизатора на пайтоне никто не сподобился соорудить. Хотя известно почему - на пайтоне полная байда с метриками в reportlab, подогнать текст под прямоугольник можно только методом «научного» многотыканья.

anonymous
()
Ответ на: комментарий от anonymous

Я бы с ходу согласился, но нет. У меня рядом лежат две книги 3,5Мб djvu на 160 страниц и 45Мб pdf весь из себя векторный на 100 страниц. И первый гораздо удобнее за счёт своего небольшого размера. А так да, вектор по умолчанию лучше.

einhander ★★★★★
()
Ответ на: комментарий от einhander

Я бы с ходу согласился, но нет.

Твое личное дело.

две книги 3,5Мб djvu на 160 страниц и 45Мб pdf весь из себя векторный на 100 страниц.

Весь?! Мне «весь» не нужен! Мне только текст векторный нужен, чтобы я его поверх чего угодно наложить мог (в отличии от растра), а всё остальное извольте в растр. Ну если это не так, то вбейте гвоздь в голову тому «манагеру», который эту книгу состряпал.

anonymous
()
Ответ на: комментарий от hobbit

я раньше про ScanKromsator не слыхал. Погуглил - оно проприетарное, под Windows. Под вайном идёт хоть?

Оно хотя не опенсорс, но чисто freeware. Под вайном идёт.

anonymous
()
Ответ на: комментарий от greenman

А сейчас MMX начали выкидывать из процов. Ну да ладно, ещё долго можно будет найти CPU с MMX, я думаю.

Можно подробнее про выкидывание, а то даже слухов не нашёл. Единственно из некоторых компиляторов собираются убрать. Про CPU и речи не было

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.