История изменений
Исправление nikitos, (текущая версия) :
Имеющиеся решения покрывают подавляющее большинство случаев.
Но сформулированая ТС узкая задача создать свободную программу не хуже FR уже не требует фундаментальных открытий.
Решением поставленной ТС задачи будет программа, которая сможет достаточно хорошо для практического применения находить на входной странице текстовые области, разделять эти области на строки-слова и распознавать их.
Как видите, OCR в случае изображений документов состоит из под-задач, каждая из который решена не до конца, и не до конца по-разному.
Ложное впечатление ‘решенности задачи OCR’ возникает от того, что её казалось бы главная часть - найти соответствие между кусочками растра с масками букв и их ASCII значениями, действительно решена неплохо, но чтоб получился файнридер, этого не достаточно, не хватает функции сегментации страницы на области.
Эта функция страдает и у файнридера, если что. От этого и нет нормальных программ распознающих формулы, потому что, для того чтоб распознать формулу - её нужно для начала найти на странице, для того чтоб отформатировать текст как таблицу - таблицу сначала надо найти.
Приведенные мной в первом сообщении ссылки - это не про ‘распознавание сферически-конных образов’, это конкретная область ‘анализа изображений документов и их распознавания’, так вот, самая хромающая часть в ‘научно-решенной задаче’ это именно анализ.
И если под какой-то узкий набор документов, примерно одного типа можно наскриптовать из готового опенсорса, то вот сделать это ‘универсально’ и не получается.
Именно в области анализа структуры изображений документа нет фундаментальных открытий, практических реализаций, позволяющих решать эту подзадачу ‘OCR’ достаточно хорошо на любом наборе входных данных.
Исходная версия nikitos, :
Имеющиеся решения покрывают подавляющее большинство случаев. Но сформулированая ТС узкая задача создать свободную программу не хуже FR уже не требует фундаментальных открытий.
Решением поставленной ТС задачи будет программа, которая сможет достаточно хорошо для практического применения находить на входной странице текстовые области, разделять эти области на строки-слова и распознавать их.
Как видите, OCR в случае изображений документов состоит из под-задач, каждая из который решена не до конца, и не до конца по-разному.
Ложное впечатление ‘решенности задачи OCR’ возникает от того, что её казалось бы главная часть - найти соответствие между кусочками растра с масками букв и их ASCII значениями, действительно решена неплохо, но чтоб получился файнридер, этого не достаточно, не хватает функции сегментации страницы на области.
Эта функция страдает и у файнридера, если что. От этого и нет нормальных программ распознающих формулы, потому что, для того чтоб распознать формулу - её нужно для начала найти на странице, для того чтоб отформатировать текст как таблицу - таблицу сначала надо найти.
Приведенные мной в первом сообщении ссылки - это не про ‘распознавание сферически-конных образов’, это конкретная область ‘анализа изображений документов и их распознавания’, так вот, самая хромающая часть в ‘научно-решенной задаче’ это именно анализ.
И если под какой-то узкий набор документов, примерно одного типа можно наскриптовать из готового опенсорса, то вот сделать это ‘универсально’ и не получается.
Именно в области анализа структуры изображений документа нет фундаментальных открытий, практических реализаций, позволяющих решать эту подзадачу ‘OCR’ достаточно хорошо на любом наборе входных данных.