LINUX.ORG.RU
ФорумTalks

Как оцифровать 14.5 млн. книг?

 ,


0

2

Ответ: сканером.
Представьте себе ИТ отдел, у которого есть директор, которому необходим заместитель. И этот отдел оцифровывал 5 (пять) книг в день.

Как выяснил «Ъ», из-за недостатка средств в ИНИОНе была оцифрована лишь малая часть архива — около 7 тыс. документов из 14,5 млн. Заместитель директора по информационным технологиям Марк Шнайдерман рассказал «Ъ», что сканирование «значимых для РАН документов» длилось последние семь лет в рамках программы «Научное наследие России». Ежегодно ИНИОНу удавалось отсканировать около тысячи книг — только российских авторов. «Чтобы отсканировать все книги ИНИОНа, нужна тысяча человек, которые только этим и занимались бы 12-13 лет,— сказал господин Шнайдерман.— Если имеющиеся в ИНИОНе штатные сотрудники будут работать в своем обычном режиме, то на сканирование потратится около 100 лет».

Подробнее: http://www.kommersant.ru/doc/2659521



Последнее исправление: omich (всего исправлений: 1)
Ответ на: комментарий от Bad_ptr

всех ненужных библиотекарей со всей страны согнать и пусть оцифровывают

Маловато будет. ВОт всех айтишников согнать - как раз уложиться можно лет за пять.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от Eddy_Em

Да элементарно: студентов-двоечников привлечь.

К архивным документам? Тебе документы не жалко. Эти студенты опустошительнее пожара будут.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от Eddy_Em

А что с ним будет, если в торрентах хранить?

Либген на сегодняшний момент весит около 10 терабайт. Один миллион книг.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

весит около 10 терабайт.

Около 14 по моим данным. Плюс сколько-то терабайт отдельно научные статьи занимают.

praseodim ★★★★★
()
Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от Lordwind

Только стоит они конских денег. Как раз для наших библиотек, ога.

Ничто не стоит дороже необходимого. Значит гос-ву это было не нужно, например менее нужно, чем асфальт в Москве плиткой перекладывать.

praseodim ★★★★★
()
Ответ на: комментарий от praseodim

Древние газеты содержат исторические факты, которые иначе сложно выявить. Если сжечь газеты, то историей можно вертеть как угодно: скажем, присудить определяющую роль во второй мировой Освободительным Войскам Кот-д-Ивуара.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

Если сжечь газеты

Увы, уже без если :( Между прочим, интересно, кто определяет условия допуска в библиотеку читателей - директор или кто-то выше? В эту ИНИОН просто так попасть нельзя было, условия стали помягче по сравнение с советскими, но не намного: требовалось направление от организации, причем не всякой, а для доступа в некоторые фонды нужен был академический статус.

praseodim ★★★★★
()
Ответ на: комментарий от Eddy_Em

то историей можно вертеть как угодно: скажем, присудить определяющую роль во второй мировой Освободительным Войскам Кот-д-Ивуара.

Как будто так не делается при наличие документов и фактов, ЛОЛ.

lenin386 ★★★★
()
Ответ на: комментарий от lenin386

Если есть документы и факты, то этот бред про роль пиндостана в освобождении мира всеми, кроме совсем уж тупых, воспринимается именно как бред!

Но вот когда пиндосы сожгут все доказательства...

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

Если есть документы и факты, то этот бред про роль пиндостана в освобождении мира всеми, кроме совсем уж тупых, воспринимается именно как бред!

Это полная чушь. Я помню себя, пионера-активиста, секретаря совета дружины. Если бы не perestroika, я бы пошёл в жизнь по партийной линии 100%. Так вот, если бы мне кто-то показал книги, документы, где написано, что Дедушка Ленин - это не такой уж и добрый старичок, что в колхозы шли отнюдь не добровольно, что БАМ построили не комсомольцы, а ЗК, я бы только поржал над такой книгой и надругался бы на ней. Наличие документов - это не всё, надо желание их читать, понимать, и делать выводы.

Но вот когда пиндосы сожгут все доказательства...

Да нафиг не надо ничего жечь. У них север и юг до сих пор разные истории изучает, где хорошие и плохие генералы с точностью до наоборот.

lenin386 ★★★★
()
Последнее исправление: lenin386 (всего исправлений: 4)

Оно вообще кому-нибудь нужно?

Deleted
()
Ответ на: комментарий от Lordwind

Плюс 10-20 секунд на действия руками

Я не укладывался в 10-20 сек., поскольку всегда хочется, чтобы текст был ровный, а не перекошенный. Да и постраничный и без полей, а не разворотами (из-за чего часто ровняться приходится дважды). Особенно мерзко обрабатывать текст близко прилегающий к корешку, который в результате коррекции контраста и яркости превращался в чёрный шум, как у неудачной ксерокопии. Суммарно 1-2 минуты сверху ко времени непосредственного сканирования - 30-75 сек при 450-600 dpi на страницу и ещё 10 сек на получение предварительного превью.

DarkAmateur ★★★★
()
Ответ на: комментарий от praseodim

Например, мне было приятно увидеть журнал «Наука и жизнь» за позапрошлый век. Хоть и в отвратительном качестве.

DarkAmateur ★★★★
()
Ответ на: комментарий от DarkAmateur

450-600 dpi

Перебор, обычно от 200 dpi уже достаточно

в результате коррекции контраста и яркости превращался в чёрный шум

Потому что надо использовать не чб, а оттенки серого, я некоторые книги даже в цвете сканил, потому что бумага пожелтела от старости... даже потом при сжатии в djvu серая/цветная гамма намного лучше обрабатывается в чб

Особенно мерзко обрабатывать текст близко прилегающий к корешку

Да, визуально он искажается, но не мешает. С какой-то версии файнридер научился выравнивать такой текст и при желании отлично его распознавать. Я начинал с 4й версии и у меня таких плюшек не было.

Lordwind ★★★★★
()
Ответ на: комментарий от Lordwind

Перебор, обычно от 200 dpi уже достаточно

Сильно зависит от вопроса для чего? На мой опыт нужно все-таки 300dpi для устойчивого нормального распознавания обычных книг (печатных, без мелкого шрифта). Если делать djvu или pdf, по-хорошему, надо бы вообще 600dpi. Не случайно в библиотеках, где оцифровкой занимаются профессионально, сканируют обычно в 600 dpi, иногда более, если хотят получить действительно качественный результат.

Другое дело, что на любительском уровне такое могут себе не все позволить и имея ввиду скорость работы сканера и ресурсы для хранения и передачи.

praseodim ★★★★★
()
Ответ на: комментарий от praseodim

Все так, поэтому я и указал ОТ 200, сам сканил 300 с заделом на будущее, если понадобится распознать хотя бы часть текста. Последние версии файнридера вообще адаптировали к говнофоткам настолько, что после 150 разница мизерная. Плюс на домашних сканерах скорость очень сильно падает после 300. Плюс на компах 10-летней давности просмотр графики в pdf более 300 сильно тормозил, да и на первых планшетах тоже очень туго было. Во всем нужна мера, 300 это отличная золотая середина. Кстати поскольку процесс механический, я еще ТВ смотрел в процессе. Если бы за оцифровку еще денег давали, было бы ваще шикарно.

Lordwind ★★★★★
()
Ответ на: комментарий от lenin386

У них север и юг до сих пор разные истории изучает

Ну так серверяне же слишком "гордые", чтобы признаться, что фактически эта гражданская война была тем же, что и в построссийской СССР: нищета-быдлота крушила все подряд из зависти "буржуям".

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от zgen

Оцифровывать надо в PNG или DjVu. Не нужно ничего вычитывать и перебивать.

stevejobs ★★★★☆
()
Ответ на: комментарий от zgen

Одна страница сканитсясекунд 30. Вместе с тупняками считаем минуту. В дне 8 часов, т.е. 480 минут. С одного сканера можно сканить 500 страниц в день. Один человек, допустим, может ксерить сразу 3 сканерами, получая 1500 страниц в день. Т.е. один человек гарантированно сканирует 1 большую книгу или пять маленьких. Отдел из 20 человек соответственно может сканить 20-100 книг в день. И понадобится им на всю библиотеку 400 лет.

Но наверное, можно на заказ разработать оборудование, которое будет автоматически листать страницы. Тогда можно будет закупить пару тысяч сканеров и тем же коллективом успеть за несколько лет.

stevejobs ★★★★☆
()
Ответ на: комментарий от DarkAmateur

чтобы текст был ровный, а не перекошенный

да насрать вообще. Там большую часть библиотеки никто никогда не читал и читать не будет. Стоит ли стараться сделать качественный скан ради документа, которые в ближайшую сотню лет поднимут от силы пару раз.

Особенно мерзко обрабатывать текст близко прилегающий к корешку,

тоже не нужно. Можно корешок вообще спиливать нафиг. Всё равно все эти книги после оцифровки нужно будет отдать на макулатуру.

книги без корешков проще листать автоматически.

stevejobs ★★★★☆
()
Ответ на: комментарий от beastie

интересно, как они гарантируют, что не прелистнется несколько страниц сразу. и что делать, если перелистнется.

stevejobs ★★★★☆
()
Ответ на: комментарий от stevejobs

Автоматическая проверка порядкового номера страницы? Не знаю, но при любом расладе это лучше чем «тыща обезьян со сканерами». ;)

В google тоже над этим работают: http://youtu.be/4JuoOaL11bw

beastie ★★★★★
()
Последнее исправление: beastie (всего исправлений: 1)
Ответ на: комментарий от stevejobs

Всё равно все эти книги после оцифровки нужно будет отдать на макулатуру.

Архивные документы в макулатуру? Т'упрлс?

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от stevejobs

Есть специальный софт, который решает задачу контроля за количеством страниц (чтобы не перелистнулось). В простейшем случае, просто следят за совпадением количества страниц в книге и реально отсканированном.

В некоторых профессиональных системах прокладывают страницы, так называемыми сепараторами - распечатанными листами с нанесенным штрих-кодом, опционально - еще и на который заранее в БД записано что-то оператором (логическая разметка). Например, число листов, номер главы и т.д. Потом штрих-коды распознаются и все сверяется с числом реально просканированных листов, можно и сразу разложить в каталоги, в соответствии с логической разметкой, если она делалась, конечно

praseodim ★★★★★
()
Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от DNA_Seq

Он упоролся, похожий фак-ап уже произошёл.

http://youtu.be/Vp03vyNspyI (толк на немецком) — в краце: в индустриальных сакнерах xerox лет десять был (и всё ещё есть) баг, который заменял отдельные буквы и цифры в отскранированном материале. (связанно с алкоритвом копрессии на похожих глифах)

Когда это стало известно, пару архивов стали рвать у себя на попе волосы, т.к. они после скана утилизировали оригиналы. А то что у них осталось в виде сканов преватилось в тыкву.

beastie ★★★★★
()
Ответ на: комментарий от stevejobs

А теперь вопросы

1. Сколько сотрудников выделили
2. Сколько сканеров выделили
3. На каком оборудовании

zgen ★★★★★
()
Ответ на: комментарий от Eddy_Em

Проблема в том, что пока ты это _всё_ не прошерстишь и не откаталогизируешь, ты этот десяток тысяч не найдёшь.

Evgueni ★★★★★
()
Ответ на: комментарий от Eddy_Em

Древние газеты содержат исторические факты, которые иначе сложно выявить.

сначала попробуй доказать связь между фактом и тем, что на древней бумаге намалёвано.

n_play
()
Ответ на: комментарий от n_play

Об этом еще Бунин неплохо написал

Молчат гробницы, мумии и кости, —
      Лишь слову жизнь дана:
Из древней тьмы, на мировом погосте,
     Звучат лишь Письмена.
praseodim ★★★★★
()
Ответ на: комментарий от zgen

Так это ему, директору, нужно напрячь свою задницу, и найти оборудование и людей. Само собой ничего не делается.

stevejobs ★★★★☆
()
Ответ на: комментарий от beastie

Этим ИНИАНом никто не пользуется. Иначе говоря, почти всё его содержимое - мусор. При этом оно стоит рядом с метро и жрет бесценное для Москвы городское место. Так что выбор между тем, что совсем это здание к чертям снести (может не само здание, но его содержимое и обитателей утилизировать). И тем, чтобы может быть всё это оцифровать и отправить в дата-центр, находящийся в глухой сибирской тайге, и не жрущий место (но всё равно потом обитателей и содержимое утилизировать). Учитывая «бешеную популярность» содержимого, наверное, даже на оцифровку денег из бюджета не дадут, не то что на продолжение безобразия.

stevejobs ★★★★☆
()
Ответ на: комментарий от stevejobs

Этим ИНИАНом никто не пользуется. Иначе говоря, почти всё его содержимое - мусор.

Ты неправ, почитай хотя бы статью, объясняющую что такое ИНИОН и какое значение имеет (имела?) его библиотека http://slon.ru/economics/prometeev_ogon_iniona-1210748.xhtml

praseodim ★★★★★
()
Ответ на: комментарий от stevejobs

Так это ему, директору, нужно напрячь свою задницу, и найти оборудование и людей. Само собой ничего не делается.

От директора, конечно многое зависит, но и от финансирования тоже.

praseodim ★★★★★
()
Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от stevejobs

Так это ему, директору, нужно напрячь свою задницу, и найти оборудование и людей. Само собой ничего не делается.

На свою зарплату что-ли? Или на что?

zgen ★★★★★
()
Ответ на: комментарий от stevejobs

бесценное для Москвы городское место.

Для постройки очередного бессмысленного торгового центра.

zgen ★★★★★
()
Ответ на: комментарий от stevejobs

Читал статью еще несколько дней назад. Чего-то прям невероятно ужасного не увидел в ней. Что в той статье такого, чтобы сделать вывод о ненужности? Ну немного сонные советские еще порядки, дожившие до наших дней как в заповеднике и даже усугубленные. При том, что ведь понадобилось же ему.

praseodim ★★★★★
()
Ответ на: комментарий от stevejobs

Значит по-твоему, в обшарпаном внешнем виде и слабом финансировании виноват директор, не умеющий выбивать? Только почему-то до 1992 года директора виноваты не были, а потом что-то их скосило и все сплошь виноваты уже больше 20 лет в науке. Ты открыл новое общественно-социологическое явление :)

praseodim ★★★★★
()
Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от praseodim

Значит по-твоему, в обшарпаном внешнем виде и слабом финансировании виноват директор, не умеющий выбивать?

менеджер, отвечающий за проект, всегда во всём виноват. В этом его основная роль, собственно, и состоит.

Только почему-то до 1992 года директора виноваты не были

то есть все сидели, и на цырлах ждали подачки Сверху.

отлично, но нет. И до 1992 года были вменяемые люди.

stevejobs ★★★★☆
()
Ответ на: комментарий от praseodim

Значит по-твоему, в обшарпаном внешнем виде и слабом финансировании

это не основная проблема. Проблема в том, что там людей почти нет. Вот в моей провинциальной библиотеке имени Горького, почему-то люди еще есть (хотя, что там есть такого, чего нету в компьютере?). А вот в сабжевом мега полезном, по твоим словам, месте, нету никого. Может оно никому кроме 3,5 людей и не нужно вообще?

stevejobs ★★★★☆
()
Ответ на: комментарий от stevejobs

Может оно никому кроме 3,5 людей и не нужно вообще?

А ты сравни тиражи попсы и специализированных изданий. 100 тыс vs 100 экземпляров. Но без вторых не было бы первых, либо первые писали бы лютую куиту и перевирали бы друг друга.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от stevejobs

то есть все сидели, и на цырлах ждали подачки Сверху.

Ё-моё, да наука всегда и везде кем-то финансируется, обычно государством, иногда очень крупными корпорациями, которые становятся государствами в государстве, вроде AT&T или IBM в их лучшие годы. Или мелкая Microsoft Research, - это все по сути благотворительные проекты, с рыночной точки зрения не окупаемые, потому что у них срок окупаемости самое меньшее лет 10, а то 50 и даже 100. Про историю, социологию и обществоведение - молчу, это вообще.

В советское время науку поддерживали, строили все эти библиотеки и синхрофазотроны, потом почти не стали, вот и весь расклад, тут какой-то директор ничего особенного не добьется и не выбьет, проблема системный характер имеет. Грубо говоря, если дают миллиард, можно попробовать выклянчить еще полмиллиарда, но если только 50 миллионов, то никак тут не выбьешь даже еще 100. Хотя, в принципе, соглашусь, что в случае с ИНИОН и директор, возможно не на высоте оказался.

praseodim ★★★★★
()

Предлагаю отсканировать милиарды книг.

pacify ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.