[parse pdf][brainstorm] нужен коллективный разум

0

0

Прошу помощи. Есть pdf, таких 172 штуки. Структура у всех более или менее одинаковая: на первой странице картинка, на второй - выходные данные (дата записи, состав исполнителей), на третьей - «треклист» с привязкой исполнителей к композициям. Дальше интересные сведения, которые мне не нужно вытаскивать.

Мне нужно каким-то способом вытащить данные об исполнителе из этих PDF и применить к файлам. Проблема в «вытащить». Пробовал pdftotext - на выходе банальная неразборчивая каша. Пробовал pdftohtml - то же самое, строки с разных страниц буклета получаются в одной куче и понять где чья строка я не смог. Пробовал pdf2html (это другой пакет) - на выходе вообще картинки. Пробовал парсить на перле (PDF::API2, CAM::PDF) - не получилось вытащить текст из файла, только что-то бинарное или вообще ошибки.

Порекомендуйте сильнодействующее средство для разбора этого pdf, пожалуйста.

Варианты, устраняющие необходимость парсинга этого pdf тоже подходят.

Пишу в talks потому что это вроде как и с линуксом-то не особо связано, я не уверен, стоит ли это в general постить.

Ссылка

←	[ХОТЕТЬ]Via выпускает 64-разрядные процессоры.

Почему moonlight лучше, чем silverlight

→

Скрипт в DCOP, делающий ctrl-c ctrl-v куда надо?

vrsb
(23.04.10 10:03:41 MSD)

У меня это дело отлично показывает mc по клавише F3, и парсит он вроде как раз через pdftotext.

aix27249 ★
(23.04.10 10:04:53 MSD)

Варианты, устраняющие необходимость парсинга этого pdf тоже подходят.

Найди на free-lance.ru человека, который растащит эти 172 файла руками

~~ArsenShnurkov~~ ★
(23.04.10 10:10:29 MSD)

Ответ на: комментарий от ArsenShnurkov 23.04.10 10:10:29 MSD

>Найди на free-lance.ru человека, который растащит эти 172 файла руками

+1

Ну или сделать это самому ручками

Zhbert ★★★★★
(23.04.10 10:13:00 MSD)

Ответ на: комментарий от aix27249 23.04.10 10:04:53 MSD

У меня это дело отлично показывает mc по клавише F3, и парсит он вроде как раз через pdftotext.

третья страница выглядит так?

BWV 1 No. 1 No. 2 No. 3 No. 4 No. 5 No. 6

„Wie schön leuchtet der Morgenstern“ Coro: Recitativo (T):
Violoncello, Organo

BWV 3 1 2 3 4 5 6 7:39 1:09 4:40 0:59 6:56 1:36 No. 1 No. 2 No. 3 No. 4 No. 5 No. 6

„Ach Gott, wie manches Herzeleid“ Coro: Ach Gott, wie manches Herzeleid 13 14 15 16 17 18 5:30 2:53 6:38 1:16 7:47 0:42

name_no ★★
(23.04.10 10:15:55 MSD) автор топика