История изменений

Исправление CrX, 04.12.22 14:51 (текущая версия) :

Не понимаю, как это мешает разбить задачу на две. Тессеракт вполне справляется с распознанием простых фрагментов текста, без особого форматирования. При этом ничто не мешает сделать тулзу, которая будет заниматься только распознанием форматирования на странице (где таблицы, где заголовки, где абзацы и т.д.), но не распознавать сам текст — ей вообще пофиг, на каком оно языке и т.д. Эта новая тулза размечает шаблон для итогового результата, затем каждый фрагмент текста отдельно скармливает тессеракту (которому вообще знать не надо, таблицы там или кто), а результат, выданный тессерактом вставляет в этот самый шаблон. При этом получаем тот факт, что нам не нужно велосипедить распознавалку текста с нуля. Также выходит, что тессеракт при желании можно заменить на любой аналог без особых проблем, что тоже плюс и даже некоторый намёк если не на юниксвей, то хотя бы модульность.

Исходная версия CrX, 04.12.22 14:50:

Не понимаю, как это мешает разбить задачу на две. Тессеракт вполне справляется с распознанием простых фрагментов текста, без особого форматирования. При этом ничто не мешает сделать тулзу, которая будет заниматься только распознанием форматирования на страницу, но не распознавать сам текст — ей вообще пофиг, на каком оно языке и т.д. Эта новая тулза размечает шаблон для итогового результата, затем каждый фрагмент текста отдельно скармливает тессеракту (которому вообще знать не надо, таблицы там или кто), а результат, выданный тессерактом вставляет в этот самый шаблон. При этом получаем тот факт, что нам не нужно велосипедить распознавалку текста с нуля. Также выходит, что тессеракт при желании можно заменить на любой аналог без особых проблем, что тоже плюс и даже некоторый намёк если не на юниксвей, то хотя бы модульность.