LINUX.ORG.RU
ФорумTalks

Как оцифровать 14.5 млн. книг?

 ,


0

2

Ответ: сканером.
Представьте себе ИТ отдел, у которого есть директор, которому необходим заместитель. И этот отдел оцифровывал 5 (пять) книг в день.

Как выяснил «Ъ», из-за недостатка средств в ИНИОНе была оцифрована лишь малая часть архива — около 7 тыс. документов из 14,5 млн. Заместитель директора по информационным технологиям Марк Шнайдерман рассказал «Ъ», что сканирование «значимых для РАН документов» длилось последние семь лет в рамках программы «Научное наследие России». Ежегодно ИНИОНу удавалось отсканировать около тысячи книг — только российских авторов. «Чтобы отсканировать все книги ИНИОНа, нужна тысяча человек, которые только этим и занимались бы 12-13 лет,— сказал господин Шнайдерман.— Если имеющиеся в ИНИОНе штатные сотрудники будут работать в своем обычном режиме, то на сканирование потратится около 100 лет».

Подробнее: http://www.kommersant.ru/doc/2659521



Последнее исправление: omich (всего исправлений: 1)
Ответ на: комментарий от DarkAmateur

У меня была норма 1 разворот в минуту. Большинство книг умещали разворот на А4, средняя книга 400 страниц = 200 разворотов = 3.5 часа, плюс полчаса на проверку и компоновку файла. И да, 10 лет назад самые быстрые сканеры были Canon, 30 секунд на проход в 300 dpi / 256 оттенков серого. Плюс 10-20 секунд на действия руками (сильно зависит от состояния книги). Это в среднем. На некоторые книжки я и в 40 секунд на все укладывался, но таких было мало.

Lordwind ★★★★★
()
Ответ на: комментарий от Lordwind

Для библиотек существуют специальные книжные сканеры, на обычных планшетных там не сканируют, хотя бы чтобы не ломать корешок.

praseodim ★★★★★
()
Ответ на: комментарий от Lordwind

Только стоит они конских денег. Как раз для наших библиотек, ога.

Ничто не стоит дороже необходимого. Значит гос-ву это было не нужно, например менее нужно, чем асфальт в Москве плиткой перекладывать.

praseodim ★★★★★
()
Ответ на: комментарий от Lordwind

Плюс 10-20 секунд на действия руками

Я не укладывался в 10-20 сек., поскольку всегда хочется, чтобы текст был ровный, а не перекошенный. Да и постраничный и без полей, а не разворотами (из-за чего часто ровняться приходится дважды). Особенно мерзко обрабатывать текст близко прилегающий к корешку, который в результате коррекции контраста и яркости превращался в чёрный шум, как у неудачной ксерокопии. Суммарно 1-2 минуты сверху ко времени непосредственного сканирования - 30-75 сек при 450-600 dpi на страницу и ещё 10 сек на получение предварительного превью.

DarkAmateur ★★★★
()
Ответ на: комментарий от DarkAmateur

450-600 dpi

Перебор, обычно от 200 dpi уже достаточно

в результате коррекции контраста и яркости превращался в чёрный шум

Потому что надо использовать не чб, а оттенки серого, я некоторые книги даже в цвете сканил, потому что бумага пожелтела от старости... даже потом при сжатии в djvu серая/цветная гамма намного лучше обрабатывается в чб

Особенно мерзко обрабатывать текст близко прилегающий к корешку

Да, визуально он искажается, но не мешает. С какой-то версии файнридер научился выравнивать такой текст и при желании отлично его распознавать. Я начинал с 4й версии и у меня таких плюшек не было.

Lordwind ★★★★★
()
Ответ на: комментарий от Lordwind

Перебор, обычно от 200 dpi уже достаточно

Сильно зависит от вопроса для чего? На мой опыт нужно все-таки 300dpi для устойчивого нормального распознавания обычных книг (печатных, без мелкого шрифта). Если делать djvu или pdf, по-хорошему, надо бы вообще 600dpi. Не случайно в библиотеках, где оцифровкой занимаются профессионально, сканируют обычно в 600 dpi, иногда более, если хотят получить действительно качественный результат.

Другое дело, что на любительском уровне такое могут себе не все позволить и имея ввиду скорость работы сканера и ресурсы для хранения и передачи.

praseodim ★★★★★
()
Ответ на: комментарий от praseodim

Все так, поэтому я и указал ОТ 200, сам сканил 300 с заделом на будущее, если понадобится распознать хотя бы часть текста. Последние версии файнридера вообще адаптировали к говнофоткам настолько, что после 150 разница мизерная. Плюс на домашних сканерах скорость очень сильно падает после 300. Плюс на компах 10-летней давности просмотр графики в pdf более 300 сильно тормозил, да и на первых планшетах тоже очень туго было. Во всем нужна мера, 300 это отличная золотая середина. Кстати поскольку процесс механический, я еще ТВ смотрел в процессе. Если бы за оцифровку еще денег давали, было бы ваще шикарно.

Lordwind ★★★★★
()
Ответ на: комментарий от DarkAmateur

чтобы текст был ровный, а не перекошенный

да насрать вообще. Там большую часть библиотеки никто никогда не читал и читать не будет. Стоит ли стараться сделать качественный скан ради документа, которые в ближайшую сотню лет поднимут от силы пару раз.

Особенно мерзко обрабатывать текст близко прилегающий к корешку,

тоже не нужно. Можно корешок вообще спиливать нафиг. Всё равно все эти книги после оцифровки нужно будет отдать на макулатуру.

книги без корешков проще листать автоматически.

stevejobs ★★★★☆
()
Ответ на: комментарий от stevejobs

Всё равно все эти книги после оцифровки нужно будет отдать на макулатуру.

Архивные документы в макулатуру? Т'упрлс?

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

Он упоролся, похожий фак-ап уже произошёл.

http://youtu.be/Vp03vyNspyI (толк на немецком) — в краце: в индустриальных сакнерах xerox лет десять был (и всё ещё есть) баг, который заменял отдельные буквы и цифры в отскранированном материале. (связанно с алкоритвом копрессии на похожих глифах)

Когда это стало известно, пару архивов стали рвать у себя на попе волосы, т.к. они после скана утилизировали оригиналы. А то что у них осталось в виде сканов преватилось в тыкву.

beastie ★★★★★
()
Ответ на: комментарий от beastie

Этим ИНИАНом никто не пользуется. Иначе говоря, почти всё его содержимое - мусор. При этом оно стоит рядом с метро и жрет бесценное для Москвы городское место. Так что выбор между тем, что совсем это здание к чертям снести (может не само здание, но его содержимое и обитателей утилизировать). И тем, чтобы может быть всё это оцифровать и отправить в дата-центр, находящийся в глухой сибирской тайге, и не жрущий место (но всё равно потом обитателей и содержимое утилизировать). Учитывая «бешеную популярность» содержимого, наверное, даже на оцифровку денег из бюджета не дадут, не то что на продолжение безобразия.

stevejobs ★★★★☆
()
Ответ на: комментарий от stevejobs

Этим ИНИАНом никто не пользуется. Иначе говоря, почти всё его содержимое - мусор.

Ты неправ, почитай хотя бы статью, объясняющую что такое ИНИОН и какое значение имеет (имела?) его библиотека http://slon.ru/economics/prometeev_ogon_iniona-1210748.xhtml

praseodim ★★★★★
()
Ответ на: комментарий от stevejobs

бесценное для Москвы городское место.

Для постройки очередного бессмысленного торгового центра.

zgen ★★★★★
()
Ответ на: комментарий от stevejobs

Читал статью еще несколько дней назад. Чего-то прям невероятно ужасного не увидел в ней. Что в той статье такого, чтобы сделать вывод о ненужности? Ну немного сонные советские еще порядки, дожившие до наших дней как в заповеднике и даже усугубленные. При том, что ведь понадобилось же ему.

praseodim ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.