Во время очередного спора «Cuneiform & Tesseract vs Finereader и всё остальное» захотелось не быть голословным, и померить, которая из программ всё-таки лучше.
Взял главу из «3 мушкетёров» на английском, загнал в GIMP, сохранил как PNG, распознал. Результат сравнил с оригиналом. Размер главы — 2574 слов, 14869 знаков. Результаты — в таблицах.
Кстати, как правильно перевести «bearing y»? Это означает высоту строчных букв без хвостов: a, c, e, m, n, o, r, s, u, v, w, x, z.
Bearing Y=10
Программа время,с слов символов
FineReader 8 40 298 304
ReadIris 7 13 1881 4576
ReadIris 12 17 32 38
Asprise 29,2 1291 2451
GOCR 213,5 1916 3769
OCRAD 2,4 2565 10032
CuneiForm 6,3 759 1357
Tesseract 18,5 26 32
Bearing Y=20
Программа время слов символов
FineReader 8 35 1 2
ReadIris 7 14 211 273
ReadIris 12 25 135 162
Asprise 36,7 332 390
GOCR 194,7 743 1308
OCRAD 3,8 690 1009
CuneiForm 9,7 43 27
Tesseract 16,7 57 58
Bearing Y=30
Программа время слов символов
FineReader 8 42 21 21
ReadIris 7 19 406 588
ReadIris 12 45 218 331
Asprise 37,3 310 355
GOCR 257,9 317 362
OCRAD 6,9 1593 2407
CuneiForm 18,2 44 53
Tesseract 22,3 4 3
Вот такие пока результаты. Какие ещё программы стоит добавить в список (пока ковыряю ocre)? Как лучше имитировать грязь и повреждения для приближения условий тестов к реальным? Или у кого-нибудь найдутся сканы в нескольких разрешениях с заведомо правильно распознанным текстом?
Немного более подробная информация о тестах — на странице http://vopros4.livejournal.com/1078.html