LINUX.ORG.RU

История изменений

Исправление debugger, (текущая версия) :

В пдфке могут быть картинки, текст и шрифты (которые часто используют нестандартные кодировки). Каждый фрагмент текста имеет указание на то, каким шрифтом этот фрагмент выводить. И если выводить текст соответствующими шрифтами, то результат будет выглядеть нормально.

Когда ты выделяешь текст в веб- или пдф-браузере и копируешь его, копируются коды символов, но информация какими шрифтами нужно печатать эти символы теряется, поэтому после вставки текста в другую программу может получиться каша.

Лёгкого решения нет.

Я бы скопировал весь текст, а потом стал вычитывать его и составлять список «ошибок». Например, текст с титульной страницы (лучше работать в текстовом редакторе, который умеет показывать коды символов и не делает никаких нормализаций юникодного текста или каких бы то ни было автозамен):

Jana Pekarovièová, U+00BCudmila U+008Eigová,
Michaela Palcútová, Jozef U+008Atefánik

(В примере часть символов непечатаемая, поэтому я заменил их для видимости кодами.)

Сравнивая этот фрагмент с пдфкой, видно, что:

U+00BC → L’
U+008E → Ž
U+008A → Š

Если окажется так, что соответствие однозначное, то считай повезло: после составления полного списка ошибок (который не должен быть очень большим — десяток-другой символов) ты можешь нарисовать скрипт поиска ошибок и замены на правильные символы или сделать в редакторе десяток-другой поисков-и-замен. Если же соответствие не однозначное, то увы — только вычитка и ручная правка.

Исправление debugger, :

В пдфке могут быть картинки, текст и шрифты (которые часто используют нестандартные кодировки). Каждый фрагмент текста имеет указание на то, каким шрифтом этот фрагмент выводить. И если выводить текст соответствующими шрифтами, то результат будет выглядеть нормально.

Когда ты выделяешь текст в веб- или пдф-браузере и копируешь его, копируются коды символов, но информация какими шрифтами нужно печатать эти символы теряется, поэтому после вставки текста в другую программу может получиться каша.

Лёгкого решения нет.

Я бы скопировал весь текст, а потом стал вычитывать его и составлять список «ошибок». Например, текст с титульной страницы (лучше работать в текстовом редакторе, который умеет показывать коды символов и не делает никаких нормализаций юникодного текста или каких бы то ни было автозамен):

Jana Pekarovièová, U+00BCudmila U+008Eigová,
Michaela Palcútová, Jozef U+008Atefánik

(В примере часть символов непечатаемая, поэтому я заменил их для видимости кодами.)

Сравнивая этот фрагмент с пдфкой, видно, что:

U+00BC → L’
U+008E → Ž
U+008A → Š

Если окажется так, что соответствие однозначное, то считай повезло: ты можешь нарисовать скрипт поиска ошибок и замены на правильные символы. Если же соответствие не однозначное, то увы — только вычитка и ручная правка.

Исходная версия debugger, :

В пдфке могут быть картинки, текст и шрифты (которые часто используют нестандартные кодировки). Каждый фрагмент текста имеет указание на то, каким шрифтом этот фрагмент выводить. И если выводить текст соответствующими шрифтами, то результат будет выглядеть нормально.

Когда ты выделяешь текст в веб- или пдф-браузере и копируешь его, копируются коды символов, но информация какими шрифтами нужно печатать эти символы теряется, поэтому после вставки текста в другую программу может получиться каша.

Лёгкого решения нет.

Я бы скопировал весь текст, а потом стал вычитывать его и составлять список «ошибок». Например, текст с титульной страницы (лучше работать в текстовом редакторе, который умеет показывать коды символов и не делает никаких нормализаций юникодного текста или каких бы то ни было автозамен):

Jana Pekarovièová, ¼udmila Žigová,
Michaela Palcútová, Jozef Štefánik

Сравнивая с пдфкой, видно, что:

¼ (U+00BC) → L'
Ž (U+008E) → Ž
Š (U+008A) → Š

Если окажется так, что соответствие однозначное, то считай повезло: ты можешь нарисовать скрипт поиска ошибок и замены на правильные символы. Если же соответствие не однозначное, то увы — только вычитка и ручная правка.