Распознавание текстов

0

0

Пишу ИС, в которой мечтаю (то есть не обязательно, в шею не толкают, но подумываю над этим) запилить функционал по распознаванию pdf-файлов программным способом. Каким макаром это сделать лучше? Либы мож какие есть?

ЯП - Си. Можно и Пайтон, но не желательно.

Ссылка

←	android lifecycle lock screen работает странно

You must set the EMACS environment variable to an absolute file name

→

Ищи pdftotext

ilovewindows ★★★★★
(06.11.15 09:14:45 MSK)

Ссылка

Cuneiform опенсорсный.

anonymous
(06.11.15 09:18:00 MSK)

imagemagick для нарезки pdf + tesseract для распознавания.

anonymous
(06.11.15 09:47:18 MSK)

Ответ на: комментарий от anonymous 06.11.15 09:18:00 MSK

Мне желательно встроить решение в проект. Распознавание как таковое нужно для выборки ключевых слов из документа.

Deleted
(06.11.15 09:47:42 MSK)
Последнее исправление: rht 06.11.15 09:47:58 MSK (всего исправлений: 1)

Если из обиходного то Poppler. Посмотри в качестве примера, как там внутри pdfto* сделаны.

antares0 ★★★★
(06.11.15 09:55:49 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.11.15 09:47:18 MSK

imagemagick для нарезки pdf + tesseract для распознавания.

Оно же перегонит текст в картинку и начнет заново распознавать. Разбирать потом 100500 неточностей ocr, которые могут быть ошибкой а могут нет - сомнительное счастье.

antares0 ★★★★
(06.11.15 09:59:59 MSK)

Ссылка

распознаванию pdf-файлов

До чего дошёл регресс.

anonymous
(06.11.15 11:46:06 MSK)

Ответ на: комментарий от anonymous 06.11.15 11:46:06 MSK

Есть много PDF которые не содержат текстовый слой. Печаль, да.

Dark_SavanT ★★★★★
(06.11.15 12:35:15 MSK)

Ссылка

Ответ на: комментарий от Deleted 06.11.15 09:47:42 MSK

Мне желательно встроить решение в проект. Распознавание как таковое нужно для выборки ключевых слов из документа.

и что мешает для этого использовать предложенный анонимусом куреформ?

vtVitus ★★★★★
(07.11.15 15:07:40 MSK)

Ссылка

Прежде, чем задавать столь глобально-дурацкие вопросы, стоит для начала хотя бы на начальном уровне разобраться, что такое pdf и как он устроен.

После этого вопросы приобретут вид, на который можно попытаться дать ответ.

Этот конкретный вопрос говорит лишь о том, что автор пытается что-то «пишет» не имея не малейшего понятия о сущности вещей, которыми собирается манипулировать.

Типичный представитель linux.org.ru.

anonymous
(07.11.15 16:08:18 MSK)

yagf (+ cuneiform или tesseract) умеет из pdf - переводит страницы в картинки и распознаёт

grem ★★★★★
(07.11.15 16:38:10 MSK)

Ответ на: комментарий от grem 07.11.15 16:38:10 MSK

Но, справедливости ради, не все и не всегда. Вот буквально на днях попался документ, который только файнридер осилил сожрать. Yagf что с cuneiform, что с tesseract даже просто загрузить его не мог, до распознавания не дошло.

massimus ★★★
(07.11.15 16:47:40 MSK)