[ненависть] PDF и его просмотрщики.

Ответ на: комментарий от Nixopatolog 17.03.10 11:19:18 MSK

>И специально для фанатов Okular:

Ага, в одном открываешь в черно-белом режиме а в другом в сером и удивляешься что картинка разная

DNA_Seq ★★☆☆☆
(17.03.10 13:08:48 MSK)

Ответ на: комментарий от KRoN73 17.03.10 12:52:58 MSK

> Те, что большие - сканированы целиком

По идее, там 3 слоя: текстовый; картинка бекграунд, в градациях серого низкое разрешение; картинка текст, монохромный, высокое разрешение.

~~Nixopatolog~~ ★
(17.03.10 13:09:38 MSK) автор топика

Ссылка

Ответ на: комментарий от DNA_Seq 17.03.10 13:08:48 MSK

Подскажи, как эти режимы менять? Показал, как выглядит при открытии «из коробки»

~~Nixopatolog~~ ★
(17.03.10 13:10:39 MSK) автор топика

Ответ на: комментарий от lester 17.03.10 13:08:19 MSK

>т.е. нужно абсолютно все?

Высказывания «Не нужно никому» и «Нужно всем» не являются инверсией друг друга. Тот, кто кричит «Не нужно никому» столь же неправ, как и тот, кто кричит «нужно всем».

Выбор - это всегда хорошо. Тем, что тебе не нравится - тебя тоже насильно никто не заставляет пользоваться. Так что любой продукт имеет право на жизнь. А у кого не сложится - тот умрёт сам. Без криков «must die!».

~~KRoN73~~ ★★★★★
(17.03.10 13:12:05 MSK)

Ссылка

Ответ на: комментарий от Nixopatolog 17.03.10 13:10:39 MSK

Может тебя и с ложечки покормить а то сам промахивашься?

DNA_Seq ★★☆☆☆
(17.03.10 13:13:13 MSK)

http://dl.dropbox.com/u/1830526/pdf2.png
http://dl.dropbox.com/u/1830526/pdf1.png
Poppler 0.12.4, Okular Version 0.10.1 Using KDE Development Platform 4.4.1

h31 ★★★★
(17.03.10 13:15:27 MSK)

Ссылка

Ответ на: комментарий от lester 17.03.10 11:30:26 MSK

http://www.linux.org.ru/forum/talks/4614010?lastmod=1268382316988

azure ★★
(17.03.10 13:25:43 MSK)

Ссылка

Ответ на: комментарий от DNA_Seq 17.03.10 13:13:13 MSK

> Может тебя и с ложечки покормить

Нашел в Okular галочку, позволяющую настраивать порог и контрастность. Включил. Покрутил рукоятки - с ней только хуже, т.к. белые части букв не появляются.

~~Nixopatolog~~ ★
(17.03.10 13:28:42 MSK) автор топика

Ссылка

И такое на каждой второй странице.

http://pics4u.ru/image-F2C1_4BA0B08A.jpg

~~keiner~~ ☆
(17.03.10 13:39:24 MSK)

Ссылка

Каждый школьник, если постарается, сможет сделать pdf который будет коряво читаться хотя бы одним просмотрщиком. То же самое и с любым другим форматом. Однако же, можно сделать и так, чтобы везде смотрелось хорошо.

~~Hokum~~ ☆☆☆☆
(17.03.10 13:51:12 MSK)

Ответ на: комментарий от yirk 17.03.10 11:28:07 MSK

>А уже есть многостраничные png?

djvu?

Gary ★★★★★
(17.03.10 14:15:29 MSK)

Ответ на: комментарий от Hokum 17.03.10 13:51:12 MSK

> Каждый школьник, если постарается

Эту книгу мне отскакивал знакомый виндузятник, после многочисленных уговоров. Он же распознал её в FineReader (ну как бы конкурентов у этого продукта нет). Finereader'ом же и был создан pdf (кстати, PDFок с книгами, созданными таким путём на просторах интернета - великое множество, и отмахиваться от них всех разом ИМХО неразумно)

~~Nixopatolog~~ ★
(17.03.10 14:33:01 MSK) автор топика

Ответ на: комментарий от Gary 17.03.10 14:15:29 MSK

djvu - это не многостраничные png. Это - намного круче (в особенности для сжатия отсканированных текстов)

~~Nixopatolog~~ ★
(17.03.10 14:34:06 MSK) автор топика

Ответ на: комментарий от Nixopatolog 17.03.10 14:33:01 MSK

А FineReader не умеет djvu? Фууууу!!!

yirk ★★★
(17.03.10 14:41:41 MSK)

Ссылка

Ответ на: комментарий от Nixopatolog 17.03.10 14:33:01 MSK

> Эту книгу мне отскакивал знакомый виндузятник, после многочисленных уговоров. Он же распознал её в FineReader (ну как бы конкурентов у этого продукта нет). Finereader'ом же и был создан pdf (кстати, PDFок с книгами, созданными таким путём на просторах интернета - великое множество, и отмахиваться от них всех разом ИМХО неразумно)

Оторви руки этому виндузятнику, или научи качественно выполнять работу. В серьезных местах (напр. БАН) «виндузятники» сканируют печетные материалы в многостраничный tiff. его можно считать нормальным электронным исходным материалом для подготовки легких электронных версиий книг (djvu или тот же png внутри pdf). А вот гнать на pdf потому что у кого-то руки кривые не стоит.

soomrack ★★★★★
(17.03.10 14:57:09 MSK)

Ответ на: комментарий от soomrack 17.03.10 14:57:09 MSK

> А вот гнать на pdf потому что у кого-то руки кривые не стоит.

Я не на pdf гоню, а на его поддержку в просмотрщиках (с тем же успехом могу погнать на его поддержку в FineReader)

И, кстати, расскажите, пожалуйста, как имея tiff сделать djvu или pdf с текстовым слоем?

или научи качественно выполнять работу

Он со свою стороны всё сделал качественно, проверив полученный результат в Acrobat Reader и Foxit Reader.

~~Nixopatolog~~ ★
(17.03.10 15:05:30 MSK) автор топика

Ответ на: комментарий от Nixopatolog 17.03.10 15:05:30 MSK

> И, кстати, расскажите, пожалуйста, как имея tiff сделать djvu или pdf с текстовым слоем?

см. http://www.djvu-soft.narod.ru/ там есть и про автоматическое распознавание текста.

Он со свою стороны всё сделал качественно, проверив полученный результат в Acrobat Reader и Foxit Reader.

Качественная работа по оцифровке книг подразумевает:

1. Сохранение исходного материала = «точная» копия бумажного носителя (обычно скан в tiff с разрешением 300dpi для текстов).

2. Изготовление версии книги в формате предназначенном для оного. PDF это нисколько не многостраничный каталог изображений, это можно реализовать через функцию контейнера, но это «костыль» и чтобы это сделать качественно придется каждый контейнер прописать единообразно самому, а не создавать из каждого изображения pdf-страницу с картинкой, навешивать на нее текст (в итоге получается страница с уникальными параметрами), а потом объединять страницы в единый pdf. DJVU это пока наиболее удобный вариант.

3. Потом получившуюся электронную версию книги по желанию заказчика переводить в нужны формат. DJVU с текстом в PDF с текстом переводится вполне адекватно.

soomrack ★★★★★
(17.03.10 15:19:18 MSK)

Ответ на: комментарий от Nixopatolog 17.03.10 15:05:30 MSK

PS: пару лет назад мне пришлось делать некий сборник трудов в электронном формате (где-то на полке диск валяется). Получилось качественно, пользовался DJVU. Оцифровка веласть в TIFF (большая часть была сделана по заказу сотрудниками БАН) и передавалась мне. Из tiff'а я уже все переводил в djvu и выполнял распознавание текста, точно помню, что не finereader'ом.

soomrack ★★★★★
(17.03.10 15:22:41 MSK)

Ссылка

Ответ на: комментарий от soomrack 17.03.10 14:57:09 MSK

... в многостраничный tiff ...

Тут тоже есть свои грабли. TIFF позволяет разные варианты сжатия, в том числе и не стандартизованные.

ef37 ★★
(17.03.10 15:23:01 MSK)

Это не PDF, а куча картинок запихнутых в PDF. Так что ниочём.

golodranez ★★★★
(17.03.10 15:25:26 MSK)

Ссылка

Ответ на: комментарий от ef37 17.03.10 15:23:01 MSK

> Тут тоже есть свои грабли. TIFF позволяет разные варианты сжатия, в том числе и не стандартизованные.

Хм. Стандарты надо соблюдать. Без стандартов развал и коррупция.

soomrack ★★★★★
(17.03.10 15:26:47 MSK)

Ответ на: комментарий от soomrack 17.03.10 15:26:47 MSK

>Хм. Стандарты надо соблюдать. Без стандартов развал и коррупция.

Я хотел сказать, что TIFF не сильно отличается от PDF. Вроде бы и то, и другое стандарт, но контент внутри этих контейнеров может отображаться разным софтом по разному, увы.

ef37 ★★
(17.03.10 15:34:26 MSK)

Ссылка

Ответ на: комментарий от ef37 17.03.10 15:23:01 MSK

Ну временные файлы лучше тогда не сжимать а запастись большим винтом =)) Сам по подобной схеме десяток книжек отсканировал - tiff -> обрезка полей и разрезание разворота -> распознавание -> конвертирование в djvu -> вставка текстового слоя

DNA_Seq ★★☆☆☆
(17.03.10 16:00:14 MSK)

Ссылка

Ответ на: комментарий от soomrack 17.03.10 15:19:18 MSK

> http://www.djvu-soft.narod.ru/

Цит.:
Все программы - только для ОС Windows.

Ладно, посмотрю, конечно. Кстати, основываясь на том, что DJVU с текстом в PDF переводится вполне адекватно, попробовал сделать наоборот (т.е. из моего pdf получить djvu, pdf2djvu) - результат странный - половина страниц - отличные, половина - серые, как в Okular.

~~Nixopatolog~~ ★
(17.03.10 16:07:27 MSK) автор топика

Ответ на: комментарий от Nixopatolog 17.03.10 16:07:27 MSK

> http://www.djvu-soft.narod.ru/soft/

Показалось на секунду, что вернулся назад лет на 10.

~~Nixopatolog~~ ★
(17.03.10 16:11:22 MSK) автор топика

Ответ на: комментарий от Nixopatolog 17.03.10 12:36:55 MSK

> сложно представить себе былокод, приводящий к тому, что ошибка в размере на одной странице приводит к ошибке в масштабе на всех нечётных страницах.

Быдлокод, делающий при сборке PDF неверный масштаб на всех нечётных страницах пишется запросто :) Ещё проще такого результата добиться, собирая PDF скриптом-однострочником.

В epdfview-0.1.7 читать невозможно: http://omploader.org/vM3V6cQ/epdfview-scale.png Использует poppler-0.12.3.

question4 ★★★★★
(17.03.10 16:13:15 MSK)

Ссылка

Ответ на: комментарий от soomrack 17.03.10 14:57:09 MSK

> сканируют печетные материалы в многостраничный tiff

В нём можно сделать «невидимый» текст? Обычно PDF делают в FineReader-е только из-за него. Удобнее искать.

question4 ★★★★★
(17.03.10 16:16:07 MSK)

Ответ на: комментарий от question4 17.03.10 16:16:07 MSK

> В нём можно сделать «невидимый» текст? Обычно PDF делают в FineReader-е только из-за него. Удобнее искать.

tiff это исходный материал. Его потом переводят в djvu. А в djvu потом распознают текст автоматически добавляя его в невидимый слой.

PS: 1. да, привет, началу века. 2. у тех виндусовых программ есть аналоги, а некоторые сами являются аналогами.

soomrack ★★★★★
(17.03.10 16:20:30 MSK)

Ответ на: комментарий от Nixopatolog 17.03.10 15:05:30 MSK

> как имея tiff сделать djvu или pdf с текстовым слоем?

Грузишь TIFFы в распознающую программу, распознаёшь, сохраняешь как PDF с невидимым текстом. В FineReader-е точно есть такая опция, по-моему, в новых ReadIris тоже. Думаю, можно распознать текст CuneiForm-ом, и собрать его и картинки в PDF каким-нибудь GhostScript-ом, или pdftk, либо через LaTeX, но ни разу не пробовал.

Понимают ли перечисленные программы многостраничные TIFFы — не выяснял.

Созданием djvu не занимался. Не уверен, можно ли там привязывать текст к определённым местам на картинке.

question4 ★★★★★
(17.03.10 16:24:16 MSK)

Ответ на: комментарий от soomrack 17.03.10 16:20:30 MSK

> А в djvu потом распознают текст автоматически добавляя его в невидимый слой.

Чем? Программой просмотра или при создании?

question4 ★★★★★
(17.03.10 16:25:43 MSK)

Ответ на: комментарий от yirk 17.03.10 12:59:43 MSK

Собственно, раньше держал epdfview и foxit, потому что некоторые книги нормально отображались только в одном из них. Теперь нашел apvlv, и, да, foxit не нужен.

keyran ★★
(17.03.10 16:28:41 MSK)

Ссылка

Ответ на: комментарий от Nixopatolog 17.03.10 12:00:56 MSK

> Залил на первый попавшийся файлообменник:

невероятно ,xpdf нормально открывает и показывает этот файл

~~elipse~~ ★★★
(17.03.10 16:41:54 MSK)

Ответ на: комментарий от question4 17.03.10 16:24:16 MSK

>Созданием djvu не занимался. Не уверен, можно ли там привязывать текст к определённым местам на картинке.

Можно, привязывается текст к определенным координатам, при выделении текста это видно

DNA_Seq ★★☆☆☆
(17.03.10 16:43:02 MSK)

Ссылка

Ответ на: комментарий от Nixopatolog 17.03.10 14:34:06 MSK

>djvu - это не многостраничные png

Ну я понимаю :) Просто в контексте именно djvu подходит

Gary ★★★★★
(17.03.10 16:46:16 MSK)

Ссылка

Ответ на: комментарий от question4 17.03.10 16:25:43 MSK

Ну обычно скриптом за авторством некого грека который даже осилил написать русскую инструкцию к нему. Правда файнриадер нужен, можно незарегестрированный, ибо текст берется из его проекта ну и винда к сожалению

DNA_Seq ★★☆☆☆
(17.03.10 16:46:37 MSK)

Ответ на: комментарий от DNA_Seq 17.03.10 16:46:37 MSK

Понятно.

question4 ★★★★★
(17.03.10 17:04:24 MSK)

Ссылка

Ответ на: комментарий от elipse 17.03.10 16:41:54 MSK

> xpdf нормально открывает и показывает этот файл

У меня xpdf (3.02-1.4ubuntu2) отображает файл точно также, как okular.

~~Nixopatolog~~ ★
(17.03.10 17:49:12 MSK) автор топика

Ответ на: комментарий от Nixopatolog 17.03.10 17:49:12 MSK

у меня установлен xpdf 3.02-1.4 , Debian Lenny i386.

~~elipse~~ ★★★
(17.03.10 17:51:49 MSK)

Ссылка

Ответ на: комментарий от Nixopatolog 17.03.10 17:49:12 MSK

скриншот вам сделать какой страницы ? ))

~~elipse~~ ★★★
(17.03.10 17:52:55 MSK)

Ответ на: комментарий от elipse 17.03.10 17:52:55 MSK

> скриншот вам сделать какой страницы ? ))

Да я верю, уже показывали и Okular, в котором всё работает нормально. Наверное от версии/сборки библиотек зависит.

~~Nixopatolog~~ ★
(17.03.10 18:56:06 MSK) автор топика

Ссылка

Ответ на: комментарий от Nixopatolog 17.03.10 16:11:22 MSK

> > http://www.djvu-soft.narod.ru/soft/

Показалось на секунду, что вернулся назад лет на 10.

Особенно надпись в табличке в 4-й колонке «Не нужен» возле большинства программ доставляет

prorok2k
(18.03.10 19:17:12 MSK)

Ссылка

Похожие темы