LINUX.ORG.RU

Распознавание текстов

 


0

0

Пишу ИС, в которой мечтаю (то есть не обязательно, в шею не толкают, но подумываю над этим) запилить функционал по распознаванию pdf-файлов программным способом. Каким макаром это сделать лучше? Либы мож какие есть?

ЯП - Си. Можно и Пайтон, но не желательно.

Deleted

Последнее исправление: rht (всего исправлений: 2)
Ответ на: комментарий от anonymous

Мне желательно встроить решение в проект. Распознавание как таковое нужно для выборки ключевых слов из документа.

Deleted
()
Последнее исправление: rht (всего исправлений: 1)

Если из обиходного то Poppler. Посмотри в качестве примера, как там внутри pdfto* сделаны.

antares0 ★★★★
()
Ответ на: комментарий от anonymous

imagemagick для нарезки pdf + tesseract для распознавания.

Оно же перегонит текст в картинку и начнет заново распознавать. Разбирать потом 100500 неточностей ocr, которые могут быть ошибкой а могут нет - сомнительное счастье.

antares0 ★★★★
()
Ответ на: комментарий от anonymous

Есть много PDF которые не содержат текстовый слой. Печаль, да.

Dark_SavanT ★★★★★
()
Ответ на: комментарий от Deleted

Мне желательно встроить решение в проект. Распознавание как таковое нужно для выборки ключевых слов из документа.

и что мешает для этого использовать предложенный анонимусом куреформ?

vtVitus ★★★★★
()

Прежде, чем задавать столь глобально-дурацкие вопросы, стоит для начала хотя бы на начальном уровне разобраться, что такое pdf и как он устроен.

После этого вопросы приобретут вид, на который можно попытаться дать ответ.

Этот конкретный вопрос говорит лишь о том, что автор пытается что-то «пишет» не имея не малейшего понятия о сущности вещей, которыми собирается манипулировать.

Типичный представитель linux.org.ru.

anonymous
()

yagf (+ cuneiform или tesseract) умеет из pdf - переводит страницы в картинки и распознаёт

grem ★★★★★
()
Ответ на: комментарий от grem

Но, справедливости ради, не все и не всегда. Вот буквально на днях попался документ, который только файнридер осилил сожрать. Yagf что с cuneiform, что с tesseract даже просто загрузить его не мог, до распознавания не дошло.

massimus ★★★
()

cli файнридера, серьёзно. Правда в новом наверно выпилили.

ritsufag ★★★★★
()
Ответ на: комментарий от anonymous

Благодарю, Вы очень любезны. Особенно насчёт устройства pdf

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.