Вот тут некоторые люди говорят, что, мол, обпеньсорс-сообщество может все, если бы не злобные копирасты/секреты/патенты, если бы не монополия Винды, то у нас бы уже все было замечательно и все бы на Линуксе сидели.
Вот взялся я, сидя под Линуксом, изготавливать электронную книгу в открытом и свободном формате DjVu. Решил сделать хорошо, качественно: чтобы читалось хорошо, а объем оставался маленький, чтобы с оглавлением, с метаданными и с OCR-слоем, все как положено...
Что же я обнаруживаю?
Я обнаруживаю, что такую книгу под Линуксом может сделать только заядлый мазохист. И то не факт, что получится хорошо.
Посмотрим на все этапы.
Сканирование и подготовка изображений
Ну, хорошо, отсканировать везде можно. А вот с предварительной подготовкой изображений несколько хуже. Нет никакого ПО, которое помогло бы мне обработать документ с учетом особенностей алгоритма сжатия. Пришлось пользоваться старым добрым Imagemagick'ом и здравым смыслом.
Ну хорошо, я, может, и воспользуюсь, но нельзя же ждать от любого, кто хочет отсканить книгу, что он будет рабираться с Imagemagick? Впрочем, это еще не самое плохое.
Самое плохое — это результат. О нем в следующем параграфе.
Сжатие в DjVu
Ну хорошо, приходим к сжатию. Сжимаем при помощи DjVuLibre. О да, авторы написали, что оно работает «хуже проприетарных аналогов». Но кто ж знал, что «хуже» — это примерно в три раза хуже, чем у Lizardtech или Caminova?!
Возможно, я накосячил при подготовке изображений. Но откуда же я знаю, как было надо, а?
Да и потом, такую простую оптимизацию, как вынос общих для страниц элементов в разделяемые словари при сжатии JB2, а не копирование их в каждую страницу, DjVuLibre делать не умеет. Не говоря уже о том, чтобы сжимать не по одной странице, а потом тупо соединять, а просканировать сразу все и найти наиболее оптимальный набор общих элементов.
Ну вот что за фигня такая, а? Библиотека открытых аналогов не имеет. Находится в разработке уже 10 лет, с 2001 года, а основана она на опубликованных исходниках AT&T и Lizardtech, так что первая версия даже называлась то ли 2.0, то ли еще выше номером была. И за все это время она все еще «хуже проприетарных аналогов». Ну почему она хуже? Умных людей, что ли, нету, чтобы сделать ее не хуже? Ну я понимаю, если программа, обрабатывающая проприетарные форматы была бы хуже, у нее объективные причины. Я понимаю, если бы у проприетарного аналога была огромная фора по времени, но тут если она и есть, то ведь не больше трех лет. А сжатие все еще хуже в 3-4 раза. Это как можно в музее злопыхателей опенсорса поставить: «Мы открытые, поэтому мы дерьмо».
OCR-слой
Вот тут я узнал, что такое ад.
Мне хотелось сделать, вычитать и выровнять вручную OCR-слой. Единственная программа под Линуксом, которая позволила мне это сделать — кривой и косой djvusmooth. А самое интересное, что такой функции не было даже в проприетарном редакторе от Caminova. Только в djvusmooth. Который был с сюрпризом. Сюрприз был в том, что он не умеет добавлять и удалять элементы, только модифицировать.
Мне пришлось делать самописные скрипты, которые выделяют текст при помощи djvused, перегоняют его в удобочитаемый формат, позволяют отредактировать, потом накладывают на документ обратно. А потом подравнивать с помощью djvusmooth. Который зависает, если слишком быстро передвигаться по элементам (например, курсором).
Я вот сейчас этим занимаюсь, сижу и пла́чу.
Не говоря уже о том, что нормального OCR'а под Линукс тоже нет.
Возможно, стоило сначала перегнать в PDF, а потом через pdf2djvu. Но это бы не решило многих проблем. Пусть уж остается, как есть.
А люди говорят: «Выдайте нам спеки видеокарты, мы сами все 3D напишем!». Ага, щас. Напишут.
Может быть, у меня кривые руки. Не исключаю. Но что ж, мне для таких простых операций нужно изучить структуру формата, ознакомиться с алгоритмами сжатия и еще прочитать код djvulibre? Доколе еще, Катилина, мы будем вот так все делать?
А Okular имеет критические баги в обработке текстового слоя DjVu, которые висят открытые в багтрекере еще с 2010-го года.
Ну вот почему у нас все так плохо?
←
1
2
3
4
→
Ответ на:
комментарий
от drull
Ответ на:
комментарий
от Quasar
Ответ на:
комментарий
от drull
Ответ на:
комментарий
от Siado
Ответ на:
комментарий
от Nebuchadnezzar
Ответ на:
комментарий
от ooobooontooo
Ответ на:
комментарий
от Igron
Ответ на:
комментарий
от ooobooontooo
Ответ на:
комментарий
от Igron
Ответ на:
комментарий
от Quasar
Ответ на:
комментарий
от baverman
Ответ на:
комментарий
от Igron
Ответ на:
комментарий
от baverman
Ответ на:
комментарий
от Igron
Ответ на:
комментарий
от baverman
Ответ на:
комментарий
от Vovka-Korovka
Ответ на:
комментарий
от Nebuchadnezzar
Ответ на:
комментарий
от Igron
Ответ на:
комментарий
от Deleted
Ответ на:
комментарий
от metar
Ответ на:
комментарий
от stevejobs
Ответ на:
комментарий
от massimus
Ответ на:
комментарий
от massimus
Ответ на:
комментарий
от metar
Ответ на:
комментарий
от baverman
Ответ на:
комментарий
от massimus
Ответ на:
комментарий
от baverman
Ответ на:
комментарий
от Nebuchadnezzar
Ответ на:
комментарий
от massimus
Ответ на:
комментарий
от massimus
Ответ на:
комментарий
от baverman
Ответ на:
комментарий
от proud_anon
Ответ на:
комментарий
от massimus
Ответ на:
комментарий
от Legioner
Ответ на:
комментарий
от massimus
Ответ на:
комментарий
от proud_anon
Ответ на:
комментарий
от stevejobs
Ответ на:
комментарий
от KRoN73
Ответ на:
комментарий
от kernel
Ответ на:
комментарий
от Quasar
Ответ на:
комментарий
от DNA_Seq
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Новости DjVuLibre 3.5.24 и DjView4 4.7 (2011)
- Новости Выпуск minidjvu-mod 0.9m02 (2021)
- Форум Плач Ярославны про работу с госами (2013)
- Форум [ЖЖ][Плач Ярославны] Метасити и фулскрин (2008)
- Форум Чем почитать DJVU формат? (2006)
- Форум спеки на формат .store файлов (2013)
- Форум Плачь Ярославны или Яндекс жалуется в ФАC на Гугл. (2015)
- Форум Сканирование книг в формат DJVU (2003)
- Форум Прозрачный фон документов в djvu формате (2007)
- Форум [плач ярославны][кедосрач][малый гномовброс] Трудно мне понять жителей планеты Вулкан... (2012)