Кстати, а ни у кого нет желания попробовать обучить Clara русскому? Согласно документации к ней, необходимо сделать описания символов и еще кое-что. Как говорят разработчики, они пробовали, но у них получается нечто немеряного объема.
Хочу на досуге попробовать. Пока читаю clara-dev и clara-adv. Хочется надеяться, что что-нибудь получится.
P.S. Почему Clara? Лично мне она больше понравилась из-за того, что это обучаемая система с довольно проствм процессом обучения ("масло масляное" сказал, но ничего другого не лезет).
A mozhet ty rasskazhesh kak voobche s etoj Clara rabotat' - dazhe s english textom eto ne prosto. To cto ona obuchaemaja - eto da, eto i mne ponravilos'.
Там в документации (учебник) описано на примере, поставляемом с ней. У меня заняло примерно минут двадцать для того, чтобы понять, как распознать приложенный пример и проделать это самому.
Излагать тут, честно говоря, ломает (цитировать приличный кусок учебника, попутно переводя его на русский язык, ибо по-английски понимают тут не все). На самом деле все довольно просто, если первый раз "тупо" следовать учебнику.
Для случая Clara-0.9.9 это будет сказанное в clara-doc/clara-tut.html. Файл для теста можно взять, например, идущий с ней imre.pbm, либо самому соорудить *.pbm с разрешением 600dpi (например, взяв некий 1-станичный LaTeX-документ, сделать из него *.ps и перевести в *.pbm или отсканировать какой-либо английский текст на 600dpi).
А как она по сравнению с FineReader? Насколько я понял из предыдущих постингов у нее очень много настроек. Что в общем-то есть хорошо. А-то FineReader все пытается "!" везде ставить при распознавании моего текста, что напрягает, ибо это учебник по философии. :-)
Да что Клара, что GOCR пошли по тупиковому пути, от которого ScanSoft (точнее, Recognita, но это детали), Cognitive и Abbyy отошли лет 7 назад. И ни та, ни другая не могут тягаться даже с CuneiForm 4. Естественно, на тех языках, которые понимают.
Единственный серьезный плюс GOCR - она формулы понимает и переводит их в TeX нотации.
Когда Clara не знает, как распознать символ, ей можно указать, что это, например, 'а'. После чего все или почти все (в зависимости от качества скана) такие же символы будут распознаны.
"Да что Клара, что GOCR пошли по тупиковому пути, от которого ScanSoft (точнее, Recognita, но это детали), Cognitive и Abbyy отошли лет 7 назад."
И по какому они пошли ??? Вроде же везде используют одни и те же нейронные сети...