История изменений

В общем, попробовал я gImageReader-Qt6. С групповым сохранением в PDF у него проблемы, по одному сохраняет. При распознавании им же через tesseract результат распознавания есть, с большим количеством огрехов.

Далее я для очистки совести попробовал скормить в командной строке tesseract-у с явно указанным языком rus растровую картинку, сохранённую в gImageReader. И вот тут началось самое интересное! Первая и последняя треть листа распознались идеально, без единой ошибки. Зато середины текста нет, как корова языком слизала. При том, что в png-файле изображение текста присутствует полностью и одинакового качества на всех участках.

Со всем этим, конечно, надо будет разбираться. Но вчера я в качестве временной меры отсканировал весь многостраничный материал в PDF. C этим прекрасно справился gscan2pdf, если нужно просто создать многстраничный скан, то эта программа с задачей справляется на твёрдую пятёрку. Потом скормил этот PDF (к счастью, не конфиденциальный) онлайн-сервису https://convertio.co/. Я их попробовал три штуки, этот сервис — единственный, кто честно распознаёт текст (на пятёрку с минусом, я бы сказал) и возвращает его в виде .docx, остальные распробованные просто вставляют в документ картинки. У сервиса ограничение, бесплатно можно отсканировать до 10 листов.

Вот такой вот workaround, подойдёт не для всех задач. На будущее, конечно, надо проблему решать, например, исследовать «интересное» поведение tesseract… Тему решённой пока не помечаю.

В общем, попробовал я gImageReader-Qt6. С групповым сохранением в PDF у него проблемы, по одному сохраняет. При распознавании им же через tesseract результат распознавания есть, с большим количеством огрехов.

Далее я для очистки совести попробовал скормить в командной tesseract-у с явно указанным языком rus растровую картинку, сохранённую в gImageReader. И вот тут началось самое интересное! Первая и последняя треть листа распознались идеально, без единой ошибки. Зато середины текста нет, как корова языком слизала. При том, что в png-файле изображение текста присутствует полностью и одинакового качества на всех участках.

Со всем этим, конечно, надо будет разбираться. Но вчера я в качестве временной меры отсканировал весь многостраничный материал в PDF. C этим прекрасно справился gscan2pdf, если нужно просто создать многстраничный скан, то эта программа с задачей справляется на твёрдую пятёрку. Потом скормил этот PDF (к счастью, не конфиденциальный) онлайн-сервису https://convertio.co/. Я их попробовал три штуки, этот сервис — единственный, кто честно распознаёт текст (на пятёрку с минусом, я бы сказал) и возвращает его в виде .docx, остальные распробованные просто вставляют в документ картинки. У сервиса ограничение, бесплатно можно отсканировать до 10 листов.

Вот такой вот workaround, подойдёт не для всех задач. На будущее, конечно, надо проблему решать, например, исследовать «интересное» поведение tesseract… Тему решённой пока не помечаю.

В общем, попробовал я gImageReader-Qt6. С групповым сохранением в PDF у него проблемы, по одному сохраняет. При распознавании им же через tesseract результат распознавания есть, с большим количеством огрехов.

Далее я для очистки совести попробовал скормить в командной tesseract-у с явно указанным языком rus растровую картинку, сохранённую в gImageReader. И вот тут началось самое интересное! Первая и последняя треть листа распознались идеально, без единой ошибки. Зато середины текста нет, как корова языком слизала. При том, что в png-файле изображение текста присутствует полностью и одинакового качества на всех участках.

Со всем этим, конечно, надо будет разбираться. Но вчера я в качестве временной меры отсканировал весь многостраничный материал в PDF, с этим прекрасно справился gscan2pdf. Потом скормил этот PDF (к счастью, не конфиденциальный) онлайн-сервису https://convertio.co/. Я их попробовал три штуки, этот сервис — единственный, кто честно распознаёт текст (на пятёрку с минусом, я бы сказал) и возвращает его в виде .docx, остальные распробованные просто вставляют в документ картинки. У сервиса ограничение, бесплатно можно отсканировать до 10 листов.

Вот такой вот workaround, подойдёт не для всех задач. На будущее, конечно, надо проблему решать, например, исследовать «интересное» поведение tesseract… Тему решённой пока не помечаю.

В общем, попробовал я gImageReader-Qt6. С групповым сохранением в PDF у него проблемы, по одному сохраняет. При распознавании через tesseract результат распознавания есть, с большим количеством огрехов.

Далее я для очистки совести попробовал скормить в командной tesseract-у с явно указанным языком rus растровую картинку, сохранённую в gImageReader. И вот тут началось самое интересное! Первая и последняя треть листа распознались идеально, без единой ошибки. Зато середины текста нет, как корова языком слизала. При том, что в png-файле изображение текста присутствует полностью и одинакового качества на всех участках.

Со всем этим, конечно, надо будет разбираться. Но вчера я в качестве временной меры отсканировал весь многостраничный материал в PDF, с этим прекрасно справился gscan2pdf. Потом скормил этот PDF (к счастью, не конфиденциальный) онлайн-сервису https://convertio.co/. Я их попробовал три штуки, этот сервис — единственный, кто честно распознаёт текст (на пятёрку с минусом, я бы сказал) и возвращает его в виде .docx, остальные распробованные просто вставляют в документ картинки. У сервиса ограничение, бесплатно можно отсканировать до 10 листов.

Вот такой вот workaround, подойдёт не для всех задач. На будущее, конечно, надо проблему решать, например, исследовать «интересное» поведение tesseract… Тему решённой пока не помечаю.