Прошу помощи. Есть pdf, таких 172 штуки. Структура у всех более или менее одинаковая: на первой странице картинка, на второй - выходные данные (дата записи, состав исполнителей), на третьей - «треклист» с привязкой исполнителей к композициям. Дальше интересные сведения, которые мне не нужно вытаскивать.
Мне нужно каким-то способом вытащить данные об исполнителе из этих PDF и применить к файлам. Проблема в «вытащить». Пробовал pdftotext - на выходе банальная неразборчивая каша. Пробовал pdftohtml - то же самое, строки с разных страниц буклета получаются в одной куче и понять где чья строка я не смог. Пробовал pdf2html (это другой пакет) - на выходе вообще картинки. Пробовал парсить на перле (PDF::API2, CAM::PDF) - не получилось вытащить текст из файла, только что-то бинарное или вообще ошибки.
Порекомендуйте сильнодействующее средство для разбора этого pdf, пожалуйста.
Варианты, устраняющие необходимость парсинга этого pdf тоже подходят.
Пишу в talks потому что это вроде как и с линуксом-то не особо связано, я не уверен, стоит ли это в general постить.