Есть задача, преобразования PDF-ки, которая представляет из себя большую таблицу, в CSV. С помощью pdftotext переконвертировал в текстовый файл, sed-ом подрезал лишний мусор в шапке, в заголовках страниц, остались голые данные. Дальше есть небольшая сложность, в оригинальном PDF, ячейка с отчеством была с переносом строки,
-----------------------------------------------
|1 |ГУРЦКАЯ |ОЛЬГА |ВЛАДИМИРОВ |21.03.1982|
| | | |НА | |
| | | | | |
-----------------------------------------------
|2 |АБАШИДЗЕ|ФАИК | |17.03.1951|
| | | | | |
| | | | | |
-----------------------------------------------
т.е. на примере первой строки отчество (3 колонка) «Владимировна» в текстовом файле оказалась «Владимиров» на первой строке, а «на» уже на другой строке.
Каким образом можно эти переносы «приклеить» назад к своим начальным частям, чтобы дальше уже с помощью какого-нибудь tr заменить пробел(ы) на ";" и получить нормальный файл с разделителями? Сейчас имеем такого рода файл:
1 ГУРЦКАЯ ОЛЬГА ВЛАДИМИРОВ 21.03.1982 8 д. ПВДНП 23.05.2019 1/1 ЗП: Взр
НА изготовлен
2 АБАШИДЗЕ ФАИК 17.03.1951 7 д. Сформирована 21.05.2019 3/4 ЗП: Взр
3 АБРАМОВА ТАТЬЯНА СВЯТОСЛАВОВ 10.11.1977 8 д. ПВДНП 23.05.2019 1/1 ЗП: Взр
НА изготовлен
4 АЛЕКСЕЕНКОВА АЛИНА ИВАНОВНА 21.03.1977 10 д. ПВДНП 23.05.2019 1/1 ЗП: Взр
изготовлен
5 АЛЕЩЕНКОВА ВАЛЕНТИНА КОНСТАНТИН 09.02.1955 8 д. ПВДНП 23.05.2019 1/1 ЗП: Взр
ОВНА изготовлен
6 АНДОРСКАЯ ЕКАТЕРИНА ВИКТОРОВНА 18.03.1993 10 д. ПВДНП 23.05.2019 1/1 ЗП: Взр
изготовлен