История изменений
Исправление CrX, (текущая версия) :
Не понимаю, как это мешает разбить задачу на две. Тессеракт вполне справляется с распознанием простых фрагментов текста, без особого форматирования. При этом ничто не мешает сделать тулзу, которая будет заниматься только распознанием форматирования на странице (где таблицы, где заголовки, где абзацы и т.д.), но не распознавать сам текст — ей вообще пофиг, на каком оно языке и т.д. Эта новая тулза размечает шаблон для итогового результата, затем каждый фрагмент текста отдельно скармливает тессеракту (которому вообще знать не надо, таблицы там или кто), а результат, выданный тессерактом вставляет в этот самый шаблон. При этом получаем тот факт, что нам не нужно велосипедить распознавалку текста с нуля. Также выходит, что тессеракт при желании можно заменить на любой аналог без особых проблем, что тоже плюс и даже некоторый намёк если не на юниксвей, то хотя бы модульность.
Исходная версия CrX, :
Не понимаю, как это мешает разбить задачу на две. Тессеракт вполне справляется с распознанием простых фрагментов текста, без особого форматирования. При этом ничто не мешает сделать тулзу, которая будет заниматься только распознанием форматирования на страницу, но не распознавать сам текст — ей вообще пофиг, на каком оно языке и т.д. Эта новая тулза размечает шаблон для итогового результата, затем каждый фрагмент текста отдельно скармливает тессеракту (которому вообще знать не надо, таблицы там или кто), а результат, выданный тессерактом вставляет в этот самый шаблон. При этом получаем тот факт, что нам не нужно велосипедить распознавалку текста с нуля. Также выходит, что тессеракт при желании можно заменить на любой аналог без особых проблем, что тоже плюс и даже некоторый намёк если не на юниксвей, то хотя бы модульность.