LINUX.ORG.RU
ФорумTalks

Цифровой фотоаппарат и OCR


0

0

Кто-нибудь из присутствующих пытался распознавать сфотографированный текст? Какой нужен фотоаппарат, чтобы можно было распознавать не напрягаясь? Простой расчёт показывает, что чтобы снять лист A4 в разрешении 150dpi, достаточно фотоаппарата с матрицей 2,5 мегапикселей на расстоянии 26 см от листа, вопрос как с практикой?

★★★★

Желательно иметь светосильный резкий объектив с реальным фокусным расстоянием больше 50мм. Для начала.

Сканер стоит 2000р, овчина не стоит выделки.

Shaman007 ★★★★★
()

Вроде Finereader неплохо распознаёт даже совсем с убитых рисунков
попробуй ж))

anonymous
()
Ответ на: комментарий от Shaman007

> Желательно иметь светосильный резкий объектив с реальным фокусным расстоянием больше 50мм.

Я спрашивал про "мыльницы". Ими чего-то снять нереально?

> Сканер стоит 2000р,

Но в кармане не умещается :)

acheron ★★★★
() автор топика
Ответ на: комментарий от anonymous

> Вроде Finereader неплохо распознаёт даже совсем с убитых рисунков

Всему есть предел :)

acheron ★★★★
() автор топика
Ответ на: комментарий от anonymous

Ксерокс в библиотеке дорогой стал :)

acheron ★★★★
() автор топика
Ответ на: комментарий от anonymfus

> Есть такое гавно, как Docupen RC800

За эти 12-14 тысяч рублей уже можно купить хороший фотоаппарат.

acheron ★★★★
() автор топика

> Простой расчёт показывает, что чтобы снять лист A4 в разрешении 150dpi, достаточно фотоаппарата с матрицей 2,5 мегапикселей

Фигу. Ваш простой расчет не учитывает, что в байеровской матрице полученное значение нужно как минимум удвоить.

anonymous
()
Ответ на: комментарий от Shaman007

полный бред. ни светосила, ни тем более > 50 мм здесь не надо (откуда про 50 мм бред взялся даже интересно)) снимал мыльницей 6 мпкс страницы из научных журналов форматом А4. кач-во более чем достаточно для распознавания. даже картинки можно выдирать спокойно. возможно в ряде случаев и понадобится доработка в фотошопе (не уверен, умеет ли гимп что-то из того, что надо - все же прога недоделка)

anonymous
()
Ответ на: комментарий от anonymous

не в тему упомянул слышанное где-то слово

anonymous
()
Ответ на: комментарий от dn2010

книжка в мягкой обложке достойна погибнуть при оцифровке:)

по теме: сконвертируй в bw и осветли (+контраст, подгонять надо на глаз, но вероятно это можно затем заскриптовать средствами того же джимпа). Файнридер действительно должен взять такое, с остальными распознавалками все видимо одинаково печально;)

Syncro ★★★★★
()

мозг человека отлично с этим справится поищи гденить

anonymous
()

Фоткал мыльницей от сони на 5 мегапикселей советский учебник. Файнридеру понравилось, ошибок почти не было. Даже обрабатывать фотки не пришлось.

Тут главное хорошее освещение и чтоб руки не дрожали :)

nu11 ★★★★★
()

Несколько раз фотал тексты на свою древнюю цифромыльницу Samsung Digimax A400 - нормально распознаётся тем же файнридером.

Ramen ★★★★
()
Ответ на: комментарий от acheron

>Я спрашивал про "мыльницы". Ими чего-то снять нереально?

Реально, но придётся немного повозиться:

1 освещение - лучше всего две-четыре лампы (40 Вт накаливания, 12-15 Вт энергосберегающие) по бокам на расстоянии 15-25 см от книги.
2 фон - надо где-то раздобыть тёмный, желательно чёрный фон. Под страницы тоже.
3 процесс съёмки - нужно сделать несколько пробных снимков. Следите чтобы камера наводилась приблизительно в центр. Можно сразу выствить ч/б режим. Лучше держать фотоаппарат на расстоянии около 50-70 см, или выставить зум в среднее положение и подобрать нужное расстояние. Вероятно страницы придётся немного приподнять, чтобы не было размытости по краям. Будет просто замечательно если Вы сперва выставите баланс белого по бумажке (обычно первая после названия или последняя страница книги).

P.S. с помощью описанного метода получаются замечательные djvu...

ArtSh ★★★
()
Ответ на: комментарий от anonymous

Ну ты вообще мега крут, даже русский язык забыл от радости! Преклоняюсь перед мудростью Великого!

50мм берется из минимизации искажений по краю кадра (это т.н. "нормальный" объектив, объективы с меньшим фр называются "широкоугольными", с большим "дальномерными", а людей, использующих термин "ЭФР" надо отправлять на рудники). Чтобы не было бочки. Светосильный нужен чтобы не пользоваться вспышкой и не иметь проблем с ее отражением на бумаге (либо не изобретать софтбокс или отражалку).

Shaman007 ★★★★★
()

Если верить файнридеровскому фм, то минимально требуется 2 мегапикселя, рекомендуется 5. Съёмка со штатива, с дневным освещением, расстояние ~50-60 см.

maraudeur
()
Ответ на: комментарий от Shaman007

чудо, бочка уже давно проблема только для пользователей гимпа, да и то не уверен. к тому же она и не смертельна вовсе до 24 мм эфр, с которых и идут ширики (а не с 50, как тут втирают), а вот с расстояния 1.5 снимать страницу в библиотеке не всегда получится. свет легко решается лампой или окном - проверено.

anonymous
()
Ответ на: комментарий от anonymous

>не уверен, умеет ли гимп что-то из того, что надо - все же прога недоделка

Irsi-Irsi-Irsi, CMYK-CMYK-CMYK

anonymous
()
Ответ на: комментарий от Shaman007

>с большим "дальномерными"

вообще-то "телеобъективы" :)

дальномер - это немного другое %)

в остальном согласен %)

gr_buza ★★★★
()
Ответ на: комментарий от anonymous

Ключевое слово: "таблицы". А еще старенькие толстые книги с толстым корешком, мелким текстом и желтой бумагой.

Shaman007 ★★★★★
()
Ответ на: комментарий от Shaman007

> 50мм берется из минимизации искажений по краю кадра (это т.н. "нормальный" объектив, объективы с меньшим фр называются "широкоугольными", с большим "дальномерными", а людей, использующих термин "ЭФР" надо отправлять на рудники). Чтобы не было бочки. Светосильный нужен чтобы не пользоваться вспышкой и не иметь проблем с ее отражением на бумаге (либо не изобретать софтбокс или отражалку).

Господи, какой бред! Точнее какая смесь цитат из учебника и бредовых измышлений!

Рекомендую вообще забыть про фокусное расстояние ибо оно ну никак не влияет на тип искажений, создаваемых объективом. Важен угол обзора ВСЕЙ оптической системы (объектив+фотоприемник), а не ФР. Кстати ЭФР и придумали как некий эквивалент термина угла обзора, чтоб писать было удобно. И озночает оно вполне конкретную вещь, а именно "эта оптическая система имеет такой же угол обзора как и оптическая система состящая из объектива с заданым ФР на 35мм пленке"

Да и еще - то что якобы "полтинник не имеет искажений" это легенда. Имеет.

anonymous
()
Ответ на: комментарий от Shaman007

Для текста хватает, а всё остальное лучше сканером.

birdie ★★★★★
()
Ответ на: комментарий от anonymous

> до 24 мм эфр, с которых и идут ширики (а не с 50, как тут втирают

Вообще-то ЭФР 35мм и менее это ширик, 70мм и более - телефото... Все остальное попадает в категорию "нормальных" объективов. Хотя четкого определения нет, класификация зависит от фирмы-производителя. Скажем 40мм могут попасть и в ширик и в нормальные, в зависимости от фирмы.

anonymous
()
Ответ на: комментарий от anonymous

> Ваш простой расчет не учитывает, что в байеровской матрице полученное значение нужно как минимум удвоить.

Спасибо. Можно подробнее? Желательно со ссылками и формулами.

acheron ★★★★
() автор топика
Ответ на: комментарий от anonymous

> Рекомендую вообще забыть про фокусное расстояние ибо оно ну никак не влияет на тип искажений

Дальше можно не читать. LOL.

Shaman007 ★★★★★
()
Ответ на: комментарий от Shaman007

> 50мм ... т.н. "нормальный" объектив

А, понял, что ты имел в виду. Нормальный-широкоугольный-длиннофокусный определяется не фокусным расстоянием, а соотношением фокусного расстояния и ширины плёнки или матрицы. 50 мм для кадра 36x24 мм (обычная фотоплёнка) даёт углы 40х27 градусов (47 по диагонали). У мыльниц, для которых я выяснял угол -- он шире, иногда даже вдвое.

acheron ★★★★
() автор топика
Ответ на: комментарий от ArtSh

> придётся немного повозиться:

Спасибо за подробную инструкцию. А каким аппаратом это снималось?

acheron ★★★★
() автор топика
Ответ на: комментарий от Ramen

> Samsung Digimax A400

Число точек 2272x1704, светосила 2.9 - 4.8, минимальное расстояние съёмки 0.05 м, светочувствительность 100-200-400, оптический зум до 2.8, фокусное расстояние в пересчёте на 35 мм 37-103.60 мм.

Спасибо. Понять бы ещё что из этого критично :)

acheron ★★★★
() автор топика
Ответ на: комментарий от Shaman007

Шаман, а тыб почитал и подумал нуб... Ты скажешь что 50мм объектив даст абсолютно идентичную картинку на ФФ-матрице и на APS-C?

anonymous
()
19 декабря 2007 г.

Попробовал. Уценённый Kodak C613: 6 мегапикселей, оптический зум 3x. Со вспышкой с полуметра-метра получается вполне распознаваемый программой текст (8-10 кегль). Таблицы тоже распознаются, но требуют зажимать бумагу ровно. А вот полутоновые рисунки со вспышкой получаются тёмными и неконтрастными.

Ещё раз спасибо всем ответившим.

acheron ★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.