История изменений
Исправление debugger, (текущая версия) :
В пдфке могут быть картинки, текст и шрифты (которые часто используют нестандартные кодировки). Каждый фрагмент текста имеет указание на то, каким шрифтом этот фрагмент выводить. И если выводить текст соответствующими шрифтами, то результат будет выглядеть нормально.
Когда ты выделяешь текст в веб- или пдф-браузере и копируешь его, копируются коды символов, но информация какими шрифтами нужно печатать эти символы теряется, поэтому после вставки текста в другую программу может получиться каша.
Лёгкого решения нет.
Я бы скопировал весь текст, а потом стал вычитывать его и составлять список «ошибок». Например, текст с титульной страницы (лучше работать в текстовом редакторе, который умеет показывать коды символов и не делает никаких нормализаций юникодного текста или каких бы то ни было автозамен):
Jana Pekarovièová,
U+00BC
udmilaU+008E
igová,
Michaela Palcútová, JozefU+008A
tefánik
(В примере часть символов непечатаемая, поэтому я заменил их для видимости кодами.)
Сравнивая этот фрагмент с пдфкой, видно, что:
U+00BC
→ L’
U+008E
→ Ž
U+008A
→ Š
Если окажется так, что соответствие однозначное, то считай повезло: после составления полного списка ошибок (который не должен быть очень большим — десяток-другой символов) ты можешь нарисовать скрипт поиска ошибок и замены на правильные символы или сделать в редакторе десяток-другой поисков-и-замен. Если же соответствие не однозначное, то увы — только вычитка и ручная правка.
Исправление debugger, :
В пдфке могут быть картинки, текст и шрифты (которые часто используют нестандартные кодировки). Каждый фрагмент текста имеет указание на то, каким шрифтом этот фрагмент выводить. И если выводить текст соответствующими шрифтами, то результат будет выглядеть нормально.
Когда ты выделяешь текст в веб- или пдф-браузере и копируешь его, копируются коды символов, но информация какими шрифтами нужно печатать эти символы теряется, поэтому после вставки текста в другую программу может получиться каша.
Лёгкого решения нет.
Я бы скопировал весь текст, а потом стал вычитывать его и составлять список «ошибок». Например, текст с титульной страницы (лучше работать в текстовом редакторе, который умеет показывать коды символов и не делает никаких нормализаций юникодного текста или каких бы то ни было автозамен):
Jana Pekarovièová,
U+00BC
udmilaU+008E
igová,
Michaela Palcútová, JozefU+008A
tefánik
(В примере часть символов непечатаемая, поэтому я заменил их для видимости кодами.)
Сравнивая этот фрагмент с пдфкой, видно, что:
U+00BC
→ L’
U+008E
→ Ž
U+008A
→ Š
Если окажется так, что соответствие однозначное, то считай повезло: ты можешь нарисовать скрипт поиска ошибок и замены на правильные символы. Если же соответствие не однозначное, то увы — только вычитка и ручная правка.
Исходная версия debugger, :
В пдфке могут быть картинки, текст и шрифты (которые часто используют нестандартные кодировки). Каждый фрагмент текста имеет указание на то, каким шрифтом этот фрагмент выводить. И если выводить текст соответствующими шрифтами, то результат будет выглядеть нормально.
Когда ты выделяешь текст в веб- или пдф-браузере и копируешь его, копируются коды символов, но информация какими шрифтами нужно печатать эти символы теряется, поэтому после вставки текста в другую программу может получиться каша.
Лёгкого решения нет.
Я бы скопировал весь текст, а потом стал вычитывать его и составлять список «ошибок». Например, текст с титульной страницы (лучше работать в текстовом редакторе, который умеет показывать коды символов и не делает никаких нормализаций юникодного текста или каких бы то ни было автозамен):
Jana Pekarovièová, ¼udmila igová,
Michaela Palcútová, Jozef tefánik
Сравнивая с пдфкой, видно, что:
¼ (U+00BC) → L'
(U+008E) → Ž
(U+008A) → Š
Если окажется так, что соответствие однозначное, то считай повезло: ты можешь нарисовать скрипт поиска ошибок и замены на правильные символы. Если же соответствие не однозначное, то увы — только вычитка и ручная правка.