LINUX.ORG.RU
ФорумTalks

[ненависть] PDF и его просмотрщики.

 


0

0

Я просто оставлю это здесь (открыт один и тот же файл):

Evince
Okular
Adobe Reader 9

Вывод как бы напрашивается сам собой. Самое смешное, что это не *.psd и даже не *.docx, это PDF, который везде должен выглядеть одинаково!

Ответ на: комментарий от Nixopatolog

>И специально для фанатов Okular:

Ага, в одном открываешь в черно-белом режиме а в другом в сером и удивляешься что картинка разная

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от KRoN73

> Те, что большие - сканированы целиком

По идее, там 3 слоя: текстовый; картинка бекграунд, в градациях серого низкое разрешение; картинка текст, монохромный, высокое разрешение.

Nixopatolog
() автор топика
Ответ на: комментарий от lester

>т.е. нужно абсолютно все?

Высказывания «Не нужно никому» и «Нужно всем» не являются инверсией друг друга. Тот, кто кричит «Не нужно никому» столь же неправ, как и тот, кто кричит «нужно всем».

Выбор - это всегда хорошо. Тем, что тебе не нравится - тебя тоже насильно никто не заставляет пользоваться. Так что любой продукт имеет право на жизнь. А у кого не сложится - тот умрёт сам. Без криков «must die!».

KRoN73 ★★★★★
()
Ответ на: комментарий от DNA_Seq

> Может тебя и с ложечки покормить

Нашел в Okular галочку, позволяющую настраивать порог и контрастность. Включил. Покрутил рукоятки - с ней только хуже, т.к. белые части букв не появляются.

Nixopatolog
() автор топика

Каждый школьник, если постарается, сможет сделать pdf который будет коряво читаться хотя бы одним просмотрщиком. То же самое и с любым другим форматом. Однако же, можно сделать и так, чтобы везде смотрелось хорошо.

Hokum ☆☆☆☆
()
Ответ на: комментарий от Hokum

> Каждый школьник, если постарается

Эту книгу мне отскакивал знакомый виндузятник, после многочисленных уговоров. Он же распознал её в FineReader (ну как бы конкурентов у этого продукта нет). Finereader'ом же и был создан pdf (кстати, PDFок с книгами, созданными таким путём на просторах интернета - великое множество, и отмахиваться от них всех разом ИМХО неразумно)

Nixopatolog
() автор топика
Ответ на: комментарий от Nixopatolog

> Эту книгу мне отскакивал знакомый виндузятник, после многочисленных уговоров. Он же распознал её в FineReader (ну как бы конкурентов у этого продукта нет). Finereader'ом же и был создан pdf (кстати, PDFок с книгами, созданными таким путём на просторах интернета - великое множество, и отмахиваться от них всех разом ИМХО неразумно)

Оторви руки этому виндузятнику, или научи качественно выполнять работу. В серьезных местах (напр. БАН) «виндузятники» сканируют печетные материалы в многостраничный tiff. его можно считать нормальным электронным исходным материалом для подготовки легких электронных версиий книг (djvu или тот же png внутри pdf). А вот гнать на pdf потому что у кого-то руки кривые не стоит.

soomrack ★★★★★
()
Ответ на: комментарий от soomrack

> А вот гнать на pdf потому что у кого-то руки кривые не стоит.

Я не на pdf гоню, а на его поддержку в просмотрщиках (с тем же успехом могу погнать на его поддержку в FineReader)

И, кстати, расскажите, пожалуйста, как имея tiff сделать djvu или pdf с текстовым слоем?

или научи качественно выполнять работу

Он со свою стороны всё сделал качественно, проверив полученный результат в Acrobat Reader и Foxit Reader.

Nixopatolog
() автор топика
Ответ на: комментарий от Nixopatolog

> И, кстати, расскажите, пожалуйста, как имея tiff сделать djvu или pdf с текстовым слоем?

см. http://www.djvu-soft.narod.ru/ там есть и про автоматическое распознавание текста.

Он со свою стороны всё сделал качественно, проверив полученный результат в Acrobat Reader и Foxit Reader.

Качественная работа по оцифровке книг подразумевает:

1. Сохранение исходного материала = «точная» копия бумажного носителя (обычно скан в tiff с разрешением 300dpi для текстов).

2. Изготовление версии книги в формате предназначенном для оного. PDF это нисколько не многостраничный каталог изображений, это можно реализовать через функцию контейнера, но это «костыль» и чтобы это сделать качественно придется каждый контейнер прописать единообразно самому, а не создавать из каждого изображения pdf-страницу с картинкой, навешивать на нее текст (в итоге получается страница с уникальными параметрами), а потом объединять страницы в единый pdf. DJVU это пока наиболее удобный вариант.

3. Потом получившуюся электронную версию книги по желанию заказчика переводить в нужны формат. DJVU с текстом в PDF с текстом переводится вполне адекватно.

soomrack ★★★★★
()
Ответ на: комментарий от Nixopatolog

PS: пару лет назад мне пришлось делать некий сборник трудов в электронном формате (где-то на полке диск валяется). Получилось качественно, пользовался DJVU. Оцифровка веласть в TIFF (большая часть была сделана по заказу сотрудниками БАН) и передавалась мне. Из tiff'а я уже все переводил в djvu и выполнял распознавание текста, точно помню, что не finereader'ом.

soomrack ★★★★★
()
Ответ на: комментарий от soomrack

... в многостраничный tiff ...

Тут тоже есть свои грабли. TIFF позволяет разные варианты сжатия, в том числе и не стандартизованные.

ef37 ★★
()

Это не PDF, а куча картинок запихнутых в PDF. Так что ниочём.

golodranez ★★★★
()
Ответ на: комментарий от ef37

> Тут тоже есть свои грабли. TIFF позволяет разные варианты сжатия, в том числе и не стандартизованные.

Хм. Стандарты надо соблюдать. Без стандартов развал и коррупция.

soomrack ★★★★★
()
Ответ на: комментарий от soomrack

>Хм. Стандарты надо соблюдать. Без стандартов развал и коррупция.

Я хотел сказать, что TIFF не сильно отличается от PDF. Вроде бы и то, и другое стандарт, но контент внутри этих контейнеров может отображаться разным софтом по разному, увы.

ef37 ★★
()
Ответ на: комментарий от ef37

Ну временные файлы лучше тогда не сжимать а запастись большим винтом =)) Сам по подобной схеме десяток книжек отсканировал - tiff -> обрезка полей и разрезание разворота -> распознавание -> конвертирование в djvu -> вставка текстового слоя

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от soomrack

> http://www.djvu-soft.narod.ru/

Цит.:
Все программы - только для ОС Windows.

Ладно, посмотрю, конечно. Кстати, основываясь на том, что DJVU с текстом в PDF переводится вполне адекватно, попробовал сделать наоборот (т.е. из моего pdf получить djvu, pdf2djvu) - результат странный - половина страниц - отличные, половина - серые, как в Okular.

Nixopatolog
() автор топика
Ответ на: комментарий от Nixopatolog

> сложно представить себе былокод, приводящий к тому, что ошибка в размере на одной странице приводит к ошибке в масштабе на всех нечётных страницах.

Быдлокод, делающий при сборке PDF неверный масштаб на всех нечётных страницах пишется запросто :) Ещё проще такого результата добиться, собирая PDF скриптом-однострочником.

В epdfview-0.1.7 читать невозможно: http://omploader.org/vM3V6cQ/epdfview-scale.png Использует poppler-0.12.3.

question4 ★★★★★
()
Ответ на: комментарий от soomrack

> сканируют печетные материалы в многостраничный tiff

В нём можно сделать «невидимый» текст? Обычно PDF делают в FineReader-е только из-за него. Удобнее искать.

question4 ★★★★★
()
Ответ на: комментарий от question4

> В нём можно сделать «невидимый» текст? Обычно PDF делают в FineReader-е только из-за него. Удобнее искать.

tiff это исходный материал. Его потом переводят в djvu. А в djvu потом распознают текст автоматически добавляя его в невидимый слой.

PS: 1. да, привет, началу века. 2. у тех виндусовых программ есть аналоги, а некоторые сами являются аналогами.

soomrack ★★★★★
()
Ответ на: комментарий от Nixopatolog

> как имея tiff сделать djvu или pdf с текстовым слоем?

Грузишь TIFFы в распознающую программу, распознаёшь, сохраняешь как PDF с невидимым текстом. В FineReader-е точно есть такая опция, по-моему, в новых ReadIris тоже. Думаю, можно распознать текст CuneiForm-ом, и собрать его и картинки в PDF каким-нибудь GhostScript-ом, или pdftk, либо через LaTeX, но ни разу не пробовал.

Понимают ли перечисленные программы многостраничные TIFFы — не выяснял.

Созданием djvu не занимался. Не уверен, можно ли там привязывать текст к определённым местам на картинке.

question4 ★★★★★
()
Ответ на: комментарий от soomrack

> А в djvu потом распознают текст автоматически добавляя его в невидимый слой.

Чем? Программой просмотра или при создании?

question4 ★★★★★
()
Ответ на: комментарий от yirk

Собственно, раньше держал epdfview и foxit, потому что некоторые книги нормально отображались только в одном из них. Теперь нашел apvlv, и, да, foxit не нужен.

keyran ★★
()
Ответ на: комментарий от Nixopatolog

> Залил на первый попавшийся файлообменник:

невероятно ,xpdf нормально открывает и показывает этот файл

elipse ★★★
()
Ответ на: комментарий от question4

>Созданием djvu не занимался. Не уверен, можно ли там привязывать текст к определённым местам на картинке.

Можно, привязывается текст к определенным координатам, при выделении текста это видно

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от Nixopatolog

>djvu - это не многостраничные png

Ну я понимаю :) Просто в контексте именно djvu подходит

Gary ★★★★★
()
Ответ на: комментарий от question4

Ну обычно скриптом за авторством некого грека который даже осилил написать русскую инструкцию к нему. Правда файнриадер нужен, можно незарегестрированный, ибо текст берется из его проекта ну и винда к сожалению

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от elipse

> скриншот вам сделать какой страницы ? ))

Да я верю, уже показывали и Okular, в котором всё работает нормально. Наверное от версии/сборки библиотек зависит.

Nixopatolog
() автор топика
Ответ на: комментарий от Nixopatolog

> > http://www.djvu-soft.narod.ru/soft/

Показалось на секунду, что вернулся назад лет на 10.

Особенно надпись в табличке в 4-й колонке «Не нужен» возле большинства программ доставляет

prorok2k
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.