С год назад или около того я попячился в своей жаже на тему «распознавателя скриншотов» от аввыы, где концептуально наметил решение проблемы в пингвиноугодном плане с помощью спичек и желудей. А нынче решил взять и сделать полноценный скрипт - ну там воображение уже нарисовало содом на bash-е, опциональные настройки через gtk-dialog и всё в таком же духе. Ибо я подумал, что распознать текст со скриншота и засунуть его в буфер обмена может быть полезным при работе с сервисами а-ля JSTOR (если без подписки, когда кусок можно картинкой посмотреть только) или Гуглокниги.
Но оказалось, что по части обработки именно этих типов изображений налицо тотальный дестрой. Если взять скриншот, скажем, консоли или браузера - всё нормально. Открыть книгу в DjVu (сканировал в 300 dpi в бинарном ч/б варианте, но смотрю, конечно, умещая по ширине - могу предъявить вещдоки) - тоже хорошо распознается. А вот картинки с джейсторов и Ко, при таком же приблизительно размере букв, не распознаются практически никак, легче вручную перепечатать, чем исправлять эту кашу.
Попробовал управлять масштабированием картинки, установкой порога отделения черного от белого, резкостью - не преуспел. Как ни крути, получается то, что ничего не получается. Распознается от силы половина.
Есть ли какие-то проверенные подходы к решению этой проблемы? Или это не лечится?
Ответ на:
комментарий
от angrycore
Ответ на:
комментарий
от quickquest
Ответ на:
комментарий
от Smacker
Ответ на:
комментарий
от quickquest
Ответ на:
комментарий
от amorpher
Ответ на:
комментарий
от angrycore
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум [ocr][tesseract/cuneiform] Распознать английский текст (2011)
- Форум Распознавание текста в изображении (2015)
- Новости Открыт код ядра системы распознавания текстов Cuneiform (2008)
- Форум OCR Cuneiform. Теперь бесплатно! (2008)
- Форум Распознавание огромных текстов за 1 секунду - без OCR! (2023)
- Форум OCR CuneiForm будет под BSD (2008)
- Форум Распознавание текстов (2015)
- Форум Распознавание текста (2008)
- Форум распознавание текста (2005)
- Новости Начато портирование OCR CuneiForm под Linux (2008)