LINUX.ORG.RU

LaTeX и русский (UNICODE).


0

0

Частенько спрашивают о том как скопировать содержимое PDF'ок,
изготовленных при помощи TeX'а. Результат обычно весьма далёк
от нужного (нижняя строчка klipper'а). Этим страдают и pdftex,
и dvipdfm, и ghostscript (до 8.х). Некоторым нужно ещё и заши-
фровать документ (маниаки). Лучший инструмент для этих целей -
это dvipdfmx. Этот инструмент умеет многое и не страдает недо-
стастом новых версий ghostscript'а, который при шифровании пре-
вращает bookmark'и в неприятность вида \303\352\102\593 и т.д.

PS: Снимок малоинтересный, но почему-то большинство TeX'овых
PDF'ок содержат именно такую каку, и искать по ним практически
невозможно.

>>> Просмотр (1024x768, 116 Kb)

☆☆☆☆☆

Проверено: Shaman007 ()

Интересно, а зачем выдирать текст из pdfок? Они не для этого предназначены. Для текста есть исходники.

Ну а про решение здесь уже сообщалось: cmap - только я не уверен есть ли он в tetex по умолчанию. В TeXLive есть

Evgueni ★★★★★
()

Да совершенно не понял причём здесь unicode.

Это внутренняя кодировка Type1 шрифтов, на сколько я понимаю, которая вовсе не обязана совпадать с чем либо.

Evgueni ★★★★★
()
Ответ на: комментарий от Evgueni

> cmap - только я не уверен есть ли он в tetex по умолчанию

Нету (на счет 3.0 незнаю, не видел пока), я качал отдельно из И-нета, но зато pdflatex сгенерил нормальный pdf с нормальными букмарками. И copy/past из этого pdf нормально отрабатывало (по крайней мере в acroread-7.0).

ogion ★★
()
Ответ на: комментарий от Evgueni

Чего 8[ ???
А если у товарища локаль утфная? Судя по inputenc это как раз имеет место быть.

geekkoo
()
Ответ на: комментарий от tbapb

>А может хватит уже латексов а?

Я не вижу здесь никаких латексов - где вы нашли этот продукт химической промышленности?

Evgueni ★★★★★
()

>Частенько спрашивают о том как скопировать содержимое PDF'ок, изготовленных при помощи TeX'а.

Такой подход встречается довольно редко.ИМХО вся вишка *TeX'а как раз состоит в том, что проще воспользоваться сорцами, нежели готовым продуктом. Но спасибо за инфу.

Случаем не опенбокс? Если KDE, скажи название window decoration пожалуйста.

gh0stwizard ★★★★★
()

net, eto zuhe kto-to pisal (c)

anonymous
()

Проще выдирать текст (и не только текст) из PDF загрузив PDF-файл в kword:)

Led ★★★☆☆
()
Ответ на: комментарий от gh0stwizard

По PDF'кам ещё искать иногда приходится, а не только печатать. Unicode здесь внутри PDF'ок (читай документацию по GS8 и dvipdfmx). Это KDE, тема Glow с квадратными кнопочками.

timur_dav ☆☆☆☆☆
() автор топика
Ответ на: комментарий от timur_dav

> По PDF'кам ещё искать иногда приходится, а не только печатать.

Вот cmap в этом и помогает, если эти pdf'ы в LaTeX делать. В остальных случаях, как правило ничего не получится.

ogion ★★
()
Ответ на: комментарий от tbapb

>А может хватит уже латексов а?

Нет уж, нет уж! Я вот ничего не понимаю в этом LaTeX, но блин интересно посмотреть, даже самому хотелось бы узнать что-нить об этом. Но, правда, говорят, что инфы о нем мало и вся на английском :((

php-coder ★★★★★
()
Ответ на: комментарий от php-coder

Сущая неправда, инфы много, очень много. На любых языках.
По поводу cmap - знаю, я его просто не упоминал здесь.

timur_dav ☆☆☆☆☆
() автор топика
Ответ на: комментарий от Nuke

Отвечать я особо не буду, смысла не вижу. А вот встретившись в жизни я тебе физиономию подрихтовал бы. Не перевелись ещё дураки на земле русской.

timur_dav ☆☆☆☆☆
() автор топика
Ответ на: комментарий от timur_dav

Дорогие модераторы, удаляйте пожалуйста таких, Господи, прости, дебилов.

timur_dav ☆☆☆☆☆
() автор топика
Ответ на: комментарий от timur_dav

>timur_dav * (*) (18.11.2005 7:41:32)

Это не на тебя ссылка была. С другой стороны в любом смысле текст явно не педагогичный.

Evgueni ★★★★★
()
Ответ на: комментарий от timur_dav

Oops. Пардон, и в самом деле - ты просто дурак, а не быдло - отвечал я выродку, который на latex завонялся.

Nuke
()

Adobe и русский (UNICODE).

>  Результат обычно весьма далёк от нужного (нижняя строчка klipper'а).
> Этим страдают 

... некоторые программные продукты фирмы Adobe, которые перекодируют
selection из unicode ...  правильно, в cp1251!

См. http://theor.jinr.ru/~varg/misc/proprietary_software_sucks.png

> Этот инструмент умеет многое и не страдает недостастом новых версий
> ghostscript'а, который при шифровании превращает bookmark'и в
> неприятность вида \303\352\102\593 и т.д.

Ввиду вышесказанного, я не уверен, что это ошибка в gs.


P.S.

Поотрывал бы им все, что свисает и торчит...

Dselect ★★★
()
Ответ на: комментарий от ogion

Adobe и русский (UNICODE), часть 2

>> cmap - только я не уверен есть ли он в tetex по умолчанию
> Нету (на счет 3.0 незнаю, не видел пока)

Есть в 3.0 ...

> но зато pdflatex сгенерил нормальный pdf с нормальными букмарками.

.. но толку с этого cmap никакого, один вред. Как раз и получается
чепуха вроде

\u0422\u0435\u043f\u0435\u0440\u044c

> И copy/past из этого pdf нормально отрабатывало (по крайней мере в
> acroread-7.0).

Про кривость этой adobe'овской поделки я уже писал.

Dselect ★★★
()
Ответ на: Adobe и русский (UNICODE). от Dselect

IMHO это ошибка, результат при отключении шифрования совершенно другой (нормальный русский текст).

timur_dav ☆☆☆☆☆
() автор топика
Ответ на: Adobe и русский (UNICODE), часть 2 от Dselect

.. но толку с этого cmap никакого, один вред. Как раз и получается чепуха вроде

\u0422\u0435\u043f\u0435\u0440\u044c

Я такое наблюдал только когда из юникодного приложения (напримет Mozilla, OpenOffice) в неюникодное текст копируешь (Nedit).

С acroreader ничего подобного не получалось.

ogion ★★
()
Ответ на: Adobe и русский (UNICODE), часть 2 от Dselect

> .. но толку с этого cmap никакого, один вред.

Что значит никакого толку? Я же выше написал, что именно при его использовании мне и удалось сгенерить pdf, в котором можно было делать поиск по русски и копировать из него русский текст и вставлять в тот же OpenOffice, например.

И все это именно в acroread-7, другими просмотрщиками pdf не пользуюсь.

ogion ★★
()
Ответ на: комментарий от ogion

RTFM помог

> Что значит никакого толку?

Я плохо документацию читал. А там ведь сказано, что нужно cmap должен
быть первым в преамбуле. Вот теперь действительно все хорошо работает,
и никаких hex-кодов!


P.S.

Но все же не ясно -- каким боком выползла CP1251?

Dselect ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.