LINUX.ORG.RU

Особенности национального pdf-рендеринга


0

0

Постоянно сталкиваюсь со странной особенностью всех линуксовых просмотрщиков pdf, кроме проприетарного Acroread. При выделении текста в них, оно происходит по непонятным мне законам. То есть, если текст форматирован в две колонки, то при выделении одной, захватывается текст из соседней. Очень часто захватываются верхние и нижние индексы и формулы из соседних строк и колонок. Раздражает неимоверно - ни спокойно слово перевести, ни скопипастить текст нормально невозможно. Перепробовал Okular, Evince, FoxitReader, Epdfview, и, наконец, Acroread. Из них всех, проблема отсутствует только в последнем.

Так вот, меня, собственно, интересует, можно ли это вообще как-то побороть или мне так и придётся пользоваться этим тормозным проприетарным монстром и держать в системе ради него одного фигову тучу 32-битных библиотек?

Вот парочка скриншотов проблемы:
http://img294.imageshack.us/img294/527/okular.png
http://img406.imageshack.us/img406/8720/okular1.png - захват индексов

А вот как оно выглядит в Acroread:
http://img97.imageshack.us/img97/7259/acroread.png

Очень надеюсь на вашу помощь...

★★★★★

Axon

Очень надеюсь на вашу помощь...

Нет помощи.

Если не важен результат работы и самому непонятно, что описал ранее, то однозначно продолжай пользоваться СПО со странной особенностью выделения текста в них, по никому непонятным законам, ни тебе спокойно слово перевести, ни скопипастить текст нормально невозможно, если важен - то «придётся пользоваться этим тормозным проприетарным монстром и держать в системе ради него одного фигову тучу 32-битных библиотек».

vOrOn
()

Хм... Я всегда выделяю текст в окуляре рамкой. При этом он захватывает только текст попавший в область.

KblCb ★★★★★
()
Ответ на: комментарий от vOrOn

Это плохо. А откуда, вообще, растут ноги у этой проблемы? Неужели разработчики не видят, что их ПО работает неправильно?

Axon ★★★★★
() автор топика
Ответ на: комментарий от KblCb

Рамкой помогает, но это неудобно. К тому же, проблему выделения отдельных слов для перевода это не решает.

Axon ★★★★★
() автор топика
Ответ на: комментарий от Axon

> А откуда, вообще, растут ноги у этой проблемы?

Свистелка-перделка есть? ГПЛ, СПО, Ура!

Тяп-ляп и работает абы как разработчиков не волнует.

Неужели разработчики не видят, что их ПО работает неправильно?


Проблемы шерифа и индейца. Джастфофан.

vOrOn
()
Ответ на: комментарий от vOrOn

Молодой человек, просьба со злобой и раздражительностью - в винду, подальше от злого СПО, которое жрёт хомячков, а с троллингом - на диету. По существу есть что сказать?

Axon ★★★★★
() автор топика
Ответ на: комментарий от Axon

По существу есть что сказать?

Плохо доходит?

Нет помощи.

vOrOn
()
Ответ на: комментарий от Axon

Хм... Даже не знаю что сказать. Отдельные слова также прекрасно выделяются. Но вообще есть мнение что все перечисленные тобой программы использую libpoppler. Туда наверное и багрепорть.

KblCb ★★★★★
()
Ответ на: комментарий от KblCb

Не все. ЕМНИП, у FoxitReader'а свой велосипед. Но он и ведёт себя немного не так. С индексами у него проблем, всё же, нет, но и выделяет он, как бы, областью. Принципиальных отличий от выделения рамкой при это мало. Да и вообще, он немного убог и тоже проприетарен.

А что, у Poppler'а под линуксом нет свободных альтернатив? Гугление дало только упоминание о lignupdf, но это, скорее, планы на светлое будущее, а пока всё на стадии идеи...

Axon ★★★★★
() автор топика
Ответ на: комментарий от KblCb

Посмотрел багзиллу Poppler'а. Баг висит, подтверждён. Разработчики говорят, что знают о проблеме и она висит в TODO первым пунктом, но окончательно фиксить они, похоже, пока ничего не собираются...

Investigate better (that is, normal) text selection.

Сейчас зарегистрируюсь в багзилле, коммент к багу оставлю.

Axon ★★★★★
() автор топика
Ответ на: комментарий от Axon

Комментарий оставил, но надежд особых не питаю... Багрепорт был составлен в 2005 году!!! И до сих пор никто с этим ничего не сделал... Чем они там занимаются, мне интересно?

Axon ★★★★★
() автор топика
Ответ на: комментарий от vOrOn

Патчи там полностью проблему не решают, только немного смягчают. Да и вообще, лично мне больше неудобства добавляет именно глюк с верхними и нижними индексами, а его тот патч вряд ли исправляет.

Axon ★★★★★
() автор топика

поддерживаю выделение региона (рамкой). Тебе просто пока непривычно, но быстро освоишься и поймёшь, что это удобнее. Выделение по буквам нужно только если есть курсор - для выделения с клавиатуры. Если используешь мышь - регионом удобнее.

name_no ★★
()
Ответ на: комментарий от Axon

Увы. Есть только три варианта: пользоваться акробатом, ругаться на libpoppler или переписывать libpoppler частично или полностью. Все варианты имеют свои достоинства. Советую последний: с высокой степенью вероятности ничего не получится, но на многие проблемы начнёшь смотреть как на временные трудности.

KblCb ★★★★★
()
Ответ на: комментарий от name_no

Выделение регионом требует тщательного прицеливания. :-) Для меня в большинстве случаев вообще идеален даблклик по слову. К сожалению, нормально это работает только в Acroread. Так и придётся, видимо, кушать кактус...

Axon ★★★★★
() автор топика
Ответ на: комментарий от KblCb

К сожалению, единственным моим опытом программирования были logo writer, паскаль и бейсик в школе. Дальше я пока не продвинулся, так что последний вариант, хоть и самый правильный, для меня пока неосуществим...

Axon ★★★★★
() автор топика

Для «добычи текста» попробуй pdfeditor, а по хорошему таки pdf для этого не предназначен.

Evgueni ★★★★★
()
Ответ на: комментарий от Axon

> Неужели разработчики не видят, что их ПО работает неправильно?

У каждого своё понятие не правильно. Мне вот всем Adobe Reader устраивает, но он сволочь не подгружает пересобранный pdf, то есть для препросмотра его использовать нельзя :( И да, разработчики в курсе, но этой багофиче уже свыше десяти лет, а воз и ныне там.

Evgueni ★★★★★
()
Ответ на: комментарий от Evgueni

У каждого своё понятие не правильно.

У них, повторюсь, этот баг в подтверждённых висит уже пять лет. Но, похоже, они просто идут по пути наименьшего сопротивления, потому что, по-хорошему, надо довольно сильно перекраивать движок, а это сложно и долго. Им проще обвешивать его всякими сомнительной необходимости фичами, а на реальные проблемы - забить. Часто слышу подобные обвинения в сторону опенсорса, но сам такое вижу впервые...

Axon ★★★★★
() автор топика
Ответ на: комментарий от Evgueni

Для «добычи текста» попробуй pdfeditor, а по хорошему таки pdf для этого не предназначен.

Посмотрел. Забавно, но он имеет в точности такой же баг. Это уже начинает меня веселить...

Axon ★★★★★
() автор топика

А что, pdftotext уже отменили? Я для ускорения поиска по LinuxFormat все pdf'ки еще и в текст перевожу. Быстро и удобно.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Axon

>Багрепорт был составлен в 2005 году!!! И до сих пор никто с этим ничего не сделал... Чем они там занимаются, мне интересно?
Пятый комментарий сверху. Вам там на все ответили)

yirk ★★★
()
Ответ на: комментарий от Axon

> Но, похоже, они просто идут по пути наименьшего сопротивления

Скорее всего их он не раздражает. Они решают другие с их точки зрения важные проблемы. В вашем случае варианта три:

а) самому разобраться, поправить и протолкнуть в мэйнстрим

б) найти кого-то кому тоже не всё равно и кто сделает за вас а)

в) найти кого-то кто сделает за вас а)

IMHO а) и в) вполне реально. Сразу предупреждаю: меня этот баг нисколечки не напрягает, так как текст из pdf я мышкой не выдираю.

Evgueni ★★★★★
()
Ответ на: комментарий от Eddy_Em

В научных статьях, для которых я и пользуюсь pdf-читалками, куча форматирования, картинки, графики, формулы etc. В виде голого текста это будет невоспринимаемо.

Axon ★★★★★
() автор топика

>то есть, если текст форматирован в две колонки, то при выделении одной, захватывается текст из соседней

hint: разбивка на колонки в современном мире не нужна, старайтесь ее избегать, она была придумана во времена A1 газет, слишком быстро глазами двигать приходится, они кстают.

anonymous
()
Ответ на: комментарий от Evgueni

найти кого-то кому тоже не всё равно и кто сделает за вас а)

Интересная, кстати, идея. Мало ли, кого можно найти на просторах интернета...

Axon ★★★★★
() автор топика
Ответ на: комментарий от Axon

куча форматирования, картинки, графики, формулы etc.

Тогда только набирать руками. Это будет быстрее, чем копипастить отдельные предложения и между ними набирать многоэтажные формулы.

Кстати, копипастить статьи - дурной вкус. Если уж и ссылаетесь на статью, излагайте материал реферативно, а не дословно.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от anonymous

hint: разбивка на колонки в современном мире не нужна, старайтесь ее избегать, она была придумана во времена A1 газет, слишком быстро глазами двигать приходится, они кстают.

Во-первых, в современном мире ширина мониторов зачастую превышает ширину газет, так что ещё вопрос, где нужнее. А во-вторых, как вы себе представляете процесс избегания? Мне написать в редакцию Nature, Journal of Physiology, Cell и прочая прочая с требованием изменить стандарты форматирования? Или просто перестать читать литературу с некошерной разбивкой?

Axon ★★★★★
() автор топика
Ответ на: комментарий от Eddy_Em

Форматирование нужно не для того, чтобы писать, а для того, чтобы читать. Если его убрать, вникнуть в суть излагаемого материала становится значительно сложнее, и я имел в виду именно это.
А если я делаю перевод, то я в любом случае набираю всё руками, но в качестве словаря я использую GoldenDict поп-апами, для вызова которых нужно выделять слова. А именно с выделением дела, как раз, обстоят неважно.

Axon ★★★★★
() автор топика
Ответ на: комментарий от Axon

>Во-первых, в современном мире ширина мониторов зачастую превышает ширину газет

Их можно повернуть на 90 градусов, все равно 19/10 понты, боковым зрение много не увидить.

Или просто перестать читать литературу с некошерной разбивкой?

Не читать и все, к тому же в книгах все вранье и призывы к насилию разной степени, похорошему книги надо запретить и сжигать, тогда общество станет счастливее.

anonymous
()
Ответ на: комментарий от anonymous

Не читать и все, к тому же в книгах все вранье и призывы к насилию разной степени, похорошему книги надо запретить и сжигать, тогда общество станет счастливее.

Люблю анонимусов. Правда, бывают у вас идеи и посвежее...

Axon ★★★★★
() автор топика
Ответ на: комментарий от Axon

> Мало ли, кого можно найти на просторах интернета...

Я специально указал, что в данном случае это маловероятно и указал почему. Со статьи следует делать реферат, а не копипасту. Ну и годные статьи можно найти в годных местах типа arxiv.org, а там с исходниками проблем как бы и нет.

Evgueni ★★★★★
()
Ответ на: комментарий от Axon

Да вот давеча кинцо по первоканало было про сабж сколько-то градусов по фаренгейту, идея, книги - зло, зело понравилась, действительно зачем читать про несуществовавших персонажей или неподтвержденные теории или еще хуже непроверяемые, только нервы портить и впадать в расстройство.

anonymous
()
Ответ на: комментарий от Evgueni

Насчёт копипасты я уже говорил, а по поводу исходников - большинство из покадающих мне в руки статей куплены за деньги и об исходниках речи быть не может, так что, к сожалению, этот вариант редко подходит. А так - да, в пабмеде довольно много бесплатных статей, нередко и в html. Когда можно - пользуюсь.

Axon ★★★★★
() автор топика
Ответ на: комментарий от Axon

Порой складывается ощущение, что они не пользуются своими же продуктами. Ну а вообще, just for fun разработчика имеет более высокий приоритет, чем потребности каких-то там юзеров, тем более имеющих исходные коды. Надо будет - поправят - это же как два пальца.

anonymous
()
Ответ на: комментарий от Axon

Интересно, кого вы подразумеваете под «хомячками»? Далеких от ИТ юзеров, для которых комп - всего лишь инструмент, а ОС - просто пускалка прог (хотя они, как правило, и слова-то такого не знают)? Делите людей по используемой ОС? Нехорошо, ведь вокруг вас их полно и я не думаю, что им было бы приятно услышать такое в свой адрес. В конечном итоге, спец в ИТ является тем же самым «хомячком» в куче других сфер. :D

Как бороться с завышенным ЧСВ смотреть тут.

anonymous
()
Ответ на: комментарий от Axon

Зря вы так, тему подняли, а ответы не воспринимаете. Не любой анонимус - троль, не любой троль - анонимус. Удачи в борьбе.

anonymous
()
Ответ на: комментарий от anonymous

Не имею совершенно ничего против анонимусов. Собственно, против их троллинга тоже, но только если он и правда забавный.

Axon ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.