На сайте opennet.ru появилась инструкция по обучению Tesseract русскому языку.
Tesseract — программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет "пролежавшая на полке". Не так давно Google купил её и открыл исходные тексты для продолжения разработки. В настоящий момент программа уже работает с UTF-8, но знает только английский, немецкий, французский, испанский, итальянский и голландский языки.
Руководство по обучению русскому языку: http://www.opennet.ru//base/rus/osr_t...
Руководство по обучению программы (на английском): http://code.google.com/p/tesseract-oc...
Страница Tesseract: http://code.google.com/p/tesseract-ocr/