Компьютерное зрение и распознавание текста на картинке

computer vision, ffmpeg, imagemagick, tesseract

0

2

Добрый день ЛОР! Нужен совет по улучшению точности распознавания текста на картинке. Картинки взяты из видео, видео сопровождается комментариями и подсказками в виде текста. Текст как правило белый, но иногда может изменять цвет на более тёмные оттенки. Размер шрифта тоже варьируется. Видео нарезается на множество картинок, чтобы в дальнейшем документировать текст на них.

Что пробовал:

Просто через tesseract:

tesseract input.jpg output

Этот способ пока работает лучше чем другие два.

Подготовка изображения в ffmpeg. Что происходит: Конвертация изображения в grayscale -> увеличение контрастности -> увеличение размера изображения и следственно текста -> подавление шумов максимально допустимым параметром.

ffmpeg -i input.jpg -vf hue=s=0,eq=brightness=-0.06:saturation=0:contrast=5,scale=1920:-1,nlmeans=s=30 output.png

Дальше сам tesseract:

tesseract output.png result

Этот способ хуже первого, но иногда справляется с тем с чем не смог справиться первый способ.

Баш-скрипт textcleaner использующий imagemagick отсюда - fmwconcepts.com/imagemagick/textcleaner/index.php

textcleaner input.jpg output.png

tesseract output.png result

Если на одном изображении использовать все три способа, то получается точность 5-10%, в зависимости от видеоряда. Прошу ваших советов! Что можно такого сделать с изображением чтобы увеличить точность компьютерного зрения?

Ссылка

←	reminna невозможно подключиться к rdp серверу

Файлы прошивки регистратора DDPai Mola N3

→

Понял что ffmpeg не лучшая утилита для обработки изображений. В gimp выяснил что неплохо работает greyscale в сочетании с color threshold, аналог опция -colorspace gray -contrast-stretch {значение},{значение}% в утилите convert.

Dante93
(19.12.20 11:42:37 MSK) автор топика

Текст как правило белый, но иногда может изменять цвет на более тёмные оттенки.

Распознавание текста не должно зависеть от фона, поэтому перед анализом изображение фильтруют, разбеливают ©, для инвариантности к аффинным преобразованиям используют синтаксис цепного кодирования контура, двумерные грамматики ©…
Теорию можно найти тут.

Что можно такого сделать с изображением чтобы увеличить точность компьютерного зрения?

Глянь OpenVINO™ Toolkit Components ©. Он может работать с «железяками» типа Intel® Movidius™ Myriad™ X ©, NCS2 ©.

quickquest ★★★★★
(19.12.20 12:46:05 MSK)
Последнее исправление: quickquest 19.12.20 12:48:09 MSK (всего исправлений: 1)

Ссылка

лучше всего тессеракт распознаёт чёрные буквы, высотой около 30—32 пикселей, на белом фоне. покажи картинки, которые плохо распознаются?

а исходник видео или текста на нём у автора нельзя запросить?

anonymous
(19.12.20 13:28:04 MSK)

Ссылка

Ответ на: комментарий от Dante93 19.12.20 11:42:37 MSK

Понял что ffmpeg не лучшая утилита для обработки изображений.

слишком поспешные выводы

Harald ★★★★★
(19.12.20 13:29:58 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	reminna невозможно подключиться к rdp серверу

General

Файлы прошивки регистратора DDPai Mola N3

→

Похожие темы