LINUX.ORG.RU

Компьютерное зрение и распознавание текста на картинке

 , , ,


0

2

Добрый день ЛОР! Нужен совет по улучшению точности распознавания текста на картинке. Картинки взяты из видео, видео сопровождается комментариями и подсказками в виде текста. Текст как правило белый, но иногда может изменять цвет на более тёмные оттенки. Размер шрифта тоже варьируется. Видео нарезается на множество картинок, чтобы в дальнейшем документировать текст на них.

Что пробовал:

  1. Просто через tesseract:

tesseract input.jpg output

Этот способ пока работает лучше чем другие два.

  1. Подготовка изображения в ffmpeg. Что происходит: Конвертация изображения в grayscale -> увеличение контрастности -> увеличение размера изображения и следственно текста -> подавление шумов максимально допустимым параметром.

ffmpeg -i input.jpg -vf hue=s=0,eq=brightness=-0.06:saturation=0:contrast=5,scale=1920:-1,nlmeans=s=30 output.png

Дальше сам tesseract:

tesseract output.png result

Этот способ хуже первого, но иногда справляется с тем с чем не смог справиться первый способ.

  1. Баш-скрипт textcleaner использующий imagemagick отсюда - fmwconcepts.com/imagemagick/textcleaner/index.php

textcleaner input.jpg output.png

tesseract output.png result

Если на одном изображении использовать все три способа, то получается точность 5-10%, в зависимости от видеоряда. Прошу ваших советов! Что можно такого сделать с изображением чтобы увеличить точность компьютерного зрения?



Последнее исправление: Dante93 (всего исправлений: 4)

Понял что ffmpeg не лучшая утилита для обработки изображений. В gimp выяснил что неплохо работает greyscale в сочетании с color threshold, аналог опция -colorspace gray -contrast-stretch {значение},{значение}% в утилите convert.

Dante93
() автор топика

Текст как правило белый, но иногда может изменять цвет на более тёмные оттенки.

Распознавание текста не должно зависеть от фона, поэтому перед анализом изображение фильтруют, разбеливают ©, для инвариантности к аффинным преобразованиям используют синтаксис цепного кодирования контура, двумерные грамматики ©
Теорию можно найти тут.

Что можно такого сделать с изображением чтобы увеличить точность компьютерного зрения?

Глянь OpenVINO™ Toolkit Components ©. Он может работать с «железяками» типа Intel® Movidius™ Myriad™ X ©, NCS2 ©.

quickquest ★★★★★
()
Последнее исправление: quickquest (всего исправлений: 1)

лучше всего тессеракт распознаёт чёрные буквы, высотой около 30—32 пикселей, на белом фоне. покажи картинки, которые плохо распознаются?

а исходник видео или текста на нём у автора нельзя запросить?

anonymous
()
Ответ на: комментарий от Dante93

Понял что ffmpeg не лучшая утилита для обработки изображений.

слишком поспешные выводы

Harald ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.