LINUX.ORG.RU
ФорумTalks

Как оцифровать 14.5 млн. книг?

 ,


0

2

Ответ: сканером.
Представьте себе ИТ отдел, у которого есть директор, которому необходим заместитель. И этот отдел оцифровывал 5 (пять) книг в день.

Как выяснил «Ъ», из-за недостатка средств в ИНИОНе была оцифрована лишь малая часть архива — около 7 тыс. документов из 14,5 млн. Заместитель директора по информационным технологиям Марк Шнайдерман рассказал «Ъ», что сканирование «значимых для РАН документов» длилось последние семь лет в рамках программы «Научное наследие России». Ежегодно ИНИОНу удавалось отсканировать около тысячи книг — только российских авторов. «Чтобы отсканировать все книги ИНИОНа, нужна тысяча человек, которые только этим и занимались бы 12-13 лет,— сказал господин Шнайдерман.— Если имеющиеся в ИНИОНе штатные сотрудники будут работать в своем обычном режиме, то на сканирование потратится около 100 лет».

Подробнее: http://www.kommersant.ru/doc/2659521



Последнее исправление: omich (всего исправлений: 1)

Без спецтнхники около того и должно быть. Опять же в архиве по идее много другой работы. Общего бардака это конечно не отменяет.

antares0 ★★★★
()
Ответ на: комментарий от antares0

Надо заставить его самому оцифровать книжку. Причем не просто «отсканировать», а вычитать, оформить нормально и ошибки разпознавания поправить. И формулы перебить.

Тогда может вопросов будет меньше.

zgen ★★★★★
()
Ответ на: комментарий от zgen

Иди картофана наверни лучше. Никто там ничего не вычитывал и не распозновал. Скидывали TIFFы в кучу и проставляли заголовки.

omich
() автор топика

ручками, ручками
всех ненужных библиотекарей со всей страны согнать и пусть оцифровывают
а потом уволить

Bad_ptr ★★★★★
()
Ответ на: комментарий от omich

У меня вопрос - сколько книг ты отсканировал, на каком оборудовании и сколько это заняло у тебя времени?

zgen ★★★★★
()

Всё правильно сказано за одним исключением - не учитываются современные технологии: http://habrahabr.ru/post/104304/

Если грамотно всё организовать, можно все 14.5 миллионов книг отсканировать лет за 5 без проблем. В среднем 150 книг в сутки на одной автоматизированной машине сканировать реально. С учётом технического обслуживания и непредвиденных обстоятельств 50000 книг в год на одной машине. Поставить 10 машин - пол миллиона книг в год. 20 - миллион книг в год. А для приёма новых книг обязательно требовать электронную версию или при приёме её делать из печатной сразу же. Но встаёт другой вопрос: а что делать с электронным хранилищем при пожаре?

Quasar ★★★★★
()
Ответ на: комментарий от zgen

У меня вопрос - сколько книг ты отсканировал, на каком оборудовании и сколько это заняло у тебя времени?

В школе несколько страниц из книги переписал в реферат. Ручкой за пару часов.

omich
() автор топика
Ответ на: комментарий от zgen

Я так понял рассказать не о чем?

Вот же я рассказал. Теперь твоя очередь.

omich
() автор топика
Ответ на: комментарий от zgen

Если без ocr слоя, то ничего вычитывать и перебивать не нужно, просто использовать формат dvju или pdf на выбор. Для удобства сканирования книг есть специальные сканеры, где не нужно распахивать книгу полностью и расплющивать её корешок. Но это, конечно, не отменяет того, что потребуется очень много времени и должно выполняться явно не 10-12 сотрудникамими.

grem ★★★★★
()

Да элементарно: студентов-двоечников привлечь. Хочешь зачет? Оцифруй N книг с суммарным количеством страниц не менее 10000.

И попрет!

Eddy_Em ☆☆☆☆☆
()

Больше половины книг там макулатура небось, такую и сжечь не жалко.

Deleted
()
Ответ на: комментарий от Quasar

а что делать с электронным хранилищем при пожаре?

А что с ним будет, если в торрентах хранить?

Самый лучший бэкап получается.

Eddy_Em ☆☆☆☆☆
()

А вообще, я думаю, цифра крайне завышена.

Сильно сомневаюсь, что из всего Г, что там хранится, наберется хотя бы десяток тысяч действительно ценных книг, которые обязательно нужно оцифровать!

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

Особо ценные книги вряд ли кто им доверит.

Quasar ★★★★★
()
Ответ на: комментарий от Eddy_Em

Такие объёмы хранить в торрентах... Ну не знаю, найдутся ли пользователи. Но в принципе, если в открытом доступе всё разместить, то самое интересное наверняка скопируют.

Quasar ★★★★★
()
Ответ на: комментарий от grem

Все верно.

Меня смущает следующее -

1. Неизвестно каким оборудованием располагали сотрудники
2. Неизвестно сколько их работало над сканированием

При отсутствии этой информации предъявлять претензии к скорости несколько странно.

zgen ★★★★★
()
Ответ на: комментарий от omich

Монахами же

Вот кстати да. От давешних польза была - книжки размножали. А нонешние что? Кто-нибудь знает, чем они занимаются?

af5 ★★★★★
()
Ответ на: комментарий от zgen

Я в свое время (старшие курсы и аспирантура) отсканировал 50-60 книг, многие попали в коллекцию колхоза. Делал без распознавания pdf/djvu. У меня был только сканер, но быстрый и хороший. На одну книгу уходило в среднем 4 часа, за день мог отсканить 2 книги. Но попадались тяжелые и ветхие издания, там и на 2 дня растягивалось. Один раз решил распознать по феншую (эта была фармакопея ссср, весьма раритетная штука), силы кончились где-то на половине и я больше не пытался заниматься глупостями. В точных науках всегда есть формулы, рисунки, диаграммы, которые сильно усложняют распознавание, это не беллетристику оцифровывать.

Сейчас уже есть и промышленные установки для оцифровки и даже можно из хорошей фотокамеры и штатива собрать дома нечто такое, что будет не хуже сканера. Там и скорость будет на порядок выше.

Lordwind ★★★★★
()
Ответ на: комментарий от zgen

И при этом еще не стоит забывать о состоянии книг, не все скорее всего могут быть отсканированы в автоматическом режиме (техника все таки достаточно груба)

ЗЫ Что не отменяет общего рас...дяйского подхода, нехватки денег и воровства этих же самых денег

nerfur ★★★
()
Ответ на: комментарий от Hurenweibel

В любом случае, если предоставить свободный доступ к электронному книгохранилищу, оно будет надежно размножено.

А если применять банальное огораживание, то проще сразу эти книги сжечь.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от dn2010

Сейчас да. И это очень и очень недёшево для домашнего пользователя. Впрочем, хранилище в виде нескольких дублирующих компьютеров будет вполне по карману той библиотеке.

Quasar ★★★★★
()
Ответ на: комментарий от Lordwind

На одну книгу уходило в среднем 4 часа

Не верю (хотя важно знать ещё и количество страниц). Если с потугами на качество, то на 50 страниц уходит 1-2 часа. Может у меня сканер медленный?

DarkAmateur ★★★★
()
Ответ на: комментарий от dk-

а эти ваши линуксы как переводят? Траханья углепластика я в менюшках не замечал.

GNU-Ubuntu1204LTS ★★★
()
Ответ на: комментарий от af5

А нонешние что? Кто-нибудь знает, чем они занимаются?

Последний монастырь что я видел, в Бахчисарае, у них автомастерская и автомойка(не только, но это запомнилось сильнее), зарабатывают на содержание монастыря. Также всякие травяные сборы, шампуни, бальзамы делают и продают.

Loki13 ★★★★★
()
Ответ на: комментарий от DarkAmateur

У меня была норма 1 разворот в минуту. Большинство книг умещали разворот на А4, средняя книга 400 страниц = 200 разворотов = 3.5 часа, плюс полчаса на проверку и компоновку файла. И да, 10 лет назад самые быстрые сканеры были Canon, 30 секунд на проход в 300 dpi / 256 оттенков серого. Плюс 10-20 секунд на действия руками (сильно зависит от состояния книги). Это в среднем. На некоторые книжки я и в 40 секунд на все укладывался, но таких было мало.

Lordwind ★★★★★
()
Ответ на: комментарий от zgen

И формулы перебить.

Этого никто не делает. Вообще, в библиотеках, когда сканируют фонды, текст никто особо не распознает, максимум в автоматическом режиме текстовый слой в pdf добавляют.

praseodim ★★★★★
()
Ответ на: комментарий от Lordwind

Для библиотек существуют специальные книжные сканеры, на обычных планшетных там не сканируют, хотя бы чтобы не ломать корешок.

praseodim ★★★★★
()
Ответ на: комментарий от zgen

Я как-то сканил с отчимом методичку на сотню страниц, на сканере, ручками. Это ужас и кошмар.

NeverLoved ★★★★★
()
Ответ на: комментарий от Eddy_Em

Сильно сомневаюсь, что из всего Г, что там хранится, наберется хотя бы десяток тысяч действительно ценных книг, которые обязательно нужно оцифровать!

Понятие о ценности у всех разное. Для некоторых сгоревшие газеты разных городов эпохи гражданской войны, которые нигде не сохранились - это безвозвратно утраченная часть истории, для других - ерунда и вообще история не очень нужна.

praseodim ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.