Странное поведение Tesseract
Не первый раз уже сталкиваюсь, что Tesseract отказывается распознавать, пока не пошевелю гамму.
Скачал видео с субтитрами из Телеграма (MP4), сделал скриншоты в MPV (JPEG), откадрировал ImageMagick-ом (PNG), скормил Tesseract-у. Ничего не нашло. Чуть изменил гамму тем же ImageMagick-ом (convert -gamma
), причём в любую сторону и в широком диапазоне (0.125-4) — нормально распознаётся.
В чём может быть дело?
$ tesseract --version
tesseract 5.4.1
leptonica-1.83.1
libgif 5.2.1 : libjpeg 6b (libjpeg-turbo 3.0.0) : libpng 1.6.44+apng : libtiff 4.4.0 : zlib 1.3.1 : libwebp 1.4.0 : libopenjp2 2.5.2
Found AVX
Found FMA
Found SSE4.1
Found OpenMP 201511
Found libarchive 3.7.7 zlib/1.3.1 liblzma/5.6.2 bz2lib/1.0.8 libzstd/1.5.6
Found libcurl/8.11.0 OpenSSL/3.3.2 zlib/1.3.1 brotli/1.1.0 zstd/1.5.6 c-ares/1.33.1 libidn2/2.3.7 libpsl/0.21.5 libssh2/1.11.1 nghttp2/1.62.1 nghttp3/1.6.0 librtmp/2.3 OpenLDAP/2.6.4
Модели с tessdata_best 4.1.0.
Пример текста: https://0x0.st/Xn4B.zip