Самая большая проблема, что в OpenSource силами сообщества на практике получается, что очень затруднена разработка чего-то нетривиального и наукоемкого. В лучшем случае это плод труда одного-двух энтузиастов или открытые исходники фирменного продукта.
Oптическое распознавание тут хороший пример, потому что программы такого рода достаточно сложные, чтобы их можно было писать без основательных (хотя и не бог весть каких на самом деле) знаний математики и где-то даже биофизики.
И оно не так сильно востребовано, чтобы все-таки нашлось приличное финансирование. Все же многим, наверное, большинству людей распознавать тексты как-то не нужно.
Кроме того, для достижения качества, реально сравнимого с коммерческими системами, вроде Finereader, требуется проделать большое количество кропотливой работы.
В итоге лучшее, что есть - это медленно развиваемый гуглом Tesseract (который когда-то был коммерческим продуктом HP), с довольно поганым на самом деле качеством распознавания. Которому даже последние нововведения в виде каких-то нейросеток для тренировок на целые слова, не особо помогли.
При том, что tesseract еще как-то умеет просто текст распознавать, у него совсем плохо (практически никак) с распознаванием разметки (макета), стилей и т.д.
Есть куча разных старых полузаброшенных и заброшенных программок. Есть еще российский cuneiform, который когда-то был неплох в середине 90-х, но устарел и прекратился развиваться. И которому открытие никак не помогло в этом смысле.
В чем жирный плюс, однако, что у коммерческих систем, в частности у Finereader, большие ограничения по части автоматизированной работы. За нее хотят совершенно отдельных денег.
Поэтому в нише такой вот автоматической обработки OpenSource программы OCR рулят, если не требуется хорошего качества распознавания.
Аналогичный пример с распознаванием речи. Сейчас чего-то там Mozilla финансирует, но в целом оно на жалком уровне, хотя это куда востребованнее, в том числе в смысле приватности