LINUX.ORG.RU
ФорумTalks

[XeTeX]Лигатуры в OCR-слое

 


0

0

Добрый день!

Такой вот вопрос для тех, кто может сталкивался. Имеем текст, XeTeX и OTF-шрифт(напр. Libertine). Вопрос: как можно заставить компилятор не пихать unicode-лигатуры в слой выделяемого текста, не отключая включение лигатур в графическую часть PDF-ки? Другими словами, выделяемый текст не должен содержать юникодного мусора, который на листе-то хорош, а для обмена не очень. Кто-нибудь сталкивался или мне курить доки?


Я даже в доках такого не встречал.

Было бы интересно узнать, как того же добиться для цифр (чтобы с
текстовых цифр в документе в буфер считывались маюскульные).

Sphinx ★★☆☆
()
Ответ на: комментарий от Sphinx

В смысле маюскюльные? Кстати, если цифры OldStyle то они в буффер идут обычные ANSI или тоже юникод?

elfy
() автор топика
Ответ на: комментарий от elfy

В Юникоде понятия «текстовые цифры» нет, потому что это не новый
символ, а просто другой способ писать цифры.

Тем не менее, когда я из своего курсача пдфного копирую текстовые
цифры в другую программу (Firefox, Emacs), они у меня там появляются
тоже текстовые, но именно тем OT-шрифтом, где вообще такие цифры есть.
С капителью та же хрень!

Нормальные текстовые дроби разбиваются так, каким они были до
подстановки по OT-лукапу `frac`, то есть вида «1/3».

Sphinx ★★☆☆
()

Стоп, а вот лигатуры у меня по разному странно разбиваются. Те,
которые прописаны в таблице `liga` (все стандартные) — разбиваются.
Исторические (в Либертине это «st», «ct») и дискреционные — нет.

Там как-то в шрифте вроде указывается, какие лигатуры можно разбивать,
а какие нет.

Sphinx ★★☆☆
()
Ответ на: комментарий от Sphinx

> Нормальные текстовые дроби разбиваются так, каким они были до подстановки по OT-лукапу `frac`, то есть вида «1/3»

Если так, то 1 символ на PDF может соответствовать 3 символам в текстовом слое? Я туплю, я просто не представляю к чему идет привязка текстового слоя.

> В Юникоде понятия «текстовые цифры» нет, потому что это не новый символ, а просто другой способ писать цифры.

То есть это вобще не ANSI символ? Т.е. у нуля код не 48? Я побежал проверять.

> Там как-то в шрифте вроде указывается, какие лигатуры можно разбивать, а какие нет.

Сомневаюсь. Без аргументов пока, но сомневаюсь. Пойду читать. Спасибо за информацию.

elfy
() автор топика
Ответ на: комментарий от elfy

Да, кстати, я об UTF-8, а вы небось о UTF-16? В моих PDF цифры выделились кошерно в свои ANSI коды, вставляй хоть кому.

elfy
() автор топика
Ответ на: комментарий от elfy

Об этом даже не задумывался.
Минускульная девятка выделилась в нечто, по словам Emacs, под кодом 57633.



Sphinx ★★☆☆
()
Ответ на: комментарий от elfy

> Если так, то 1 символ на PDF может соответствовать 3 символам в текстовом слое?

Судя по тому, что я наблюдаю с дробями — да.
Хотя в PDF они у меня выделяются как единое целое.
Быть может, ICU, рендерящий Опентайп, не влияет никак на текстовый слой.

Sphinx ★★☆☆
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.