LINUX.ORG.RU

Перевод текста с картинки


0

2

Нужно реализовать следующее: берется изображение, на котором есть только текст. Этот текст берется с изображения (допустим, с помощью cuneiform), после чего переводится, используя, например, google translate, результат скармливается kdialog и выводится таким образом на экран. Мне тут непонятно две вещи:

Когда я скармливаю изображение (http://i.imgur.com/h1WCG5F.png ) команде cuneiform -l eng -f text -o out, файл out создается, но он пустой (видимо, не распозналось).

Как обратиться к сайту google translate? Пробовал curl - ошибка, мол мне нельзя туда.

Помогите, пожалуйста.

★★
Ответ на: комментарий от greenman

Я тут смотрю сериал с сабами, в них не все ясно, хочу автоматизировать перевод по выделению сегмента (scrot).

Valdor ★★
() автор топика
Ответ на: комментарий от Valdor

Я тут смотрю сериал с сабами, в них не все ясно, хочу автоматизировать перевод по выделению сегмента (scrot).

Выбранный способ перевода сабов, конечно интересный, но «слегка» экзотичный. Распознавалки с которыми мне приходилось сталкиваться, твой текст не распознали, да.

Как ещё один (не очень правильный, зато простой) вариант — закинь весь файл с сабами в гугл транслейт и смотри нужную фразу по времени.

anonymous
()

ищи распознавалку, которой можно явно указать хотя бы шрифт, размер и цвет текста. просто так с произвольного фона хрен кто тебе распознает

vostrik ★★★☆
()
Последнее исправление: vostrik (всего исправлений: 1)

Для перевода Systran даже годнее. Пар языков только не такой большой выбор.

Про поведение CuneiForm, имхо, лучше спрашивать на форуме оного, предварительно перечитав доки. А, собственно, почему не Tesseract?

frozen_twilight ★★
()
Ответ на: комментарий от vostrik

ищи распознавалку, которой можно явно указать хотя бы шрифт, размер и цвет текста. просто так с произвольного фона хрен кто тебе распознает

Может лучше не надеяться на чудо и некий фильтр накатывать перед OCR?

frozen_twilight ★★
()
Ответ на: комментарий от Valdor

Да я бы не сказал, что совсем уж не распознаёт (пример).

Но либо картинку надо обрабатывать (кастуй AP), либо обучать tesseract (по ссылке выше есть упоминание такой процедуры).

greenman ★★★★★
()

как тут уже сказали, используй тессеракт
гугл не умеет брать текст с картинок

kto_tama ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.