Как оцифровать 14.5 млн. книг?

0

2

Ответ: сканером.
Представьте себе ИТ отдел, у которого есть директор, которому необходим заместитель. И этот отдел оцифровывал 5 (пять) книг в день.

Как выяснил «Ъ», из-за недостатка средств в ИНИОНе была оцифрована лишь малая часть архива — около 7 тыс. документов из 14,5 млн. Заместитель директора по информационным технологиям Марк Шнайдерман рассказал «Ъ», что сканирование «значимых для РАН документов» длилось последние семь лет в рамках программы «Научное наследие России». Ежегодно ИНИОНу удавалось отсканировать около тысячи книг — только российских авторов. «Чтобы отсканировать все книги ИНИОНа, нужна тысяча человек, которые только этим и занимались бы 12-13 лет,— сказал господин Шнайдерман.— Если имеющиеся в ИНИОНе штатные сотрудники будут работать в своем обычном режиме, то на сканирование потратится около 100 лет».

Подробнее: http://www.kommersant.ru/doc/2659521

Ссылка

←	Как вы учили фразовые глаголы английского языка?

Интерактивная карта от гугл

→

← 1 2 3 →

Ответ на: комментарий от Bad_ptr 04.02.15 08:03:35 MSK

всех ненужных библиотекарей со всей страны согнать и пусть оцифровывают

Маловато будет. ВОт всех айтишников согнать - как раз уложиться можно лет за пять.

DNA_Seq ★★☆☆☆
(04.02.15 12:45:50 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 04.02.15 08:33:51 MSK

Да элементарно: студентов-двоечников привлечь.

К архивным документам? Тебе документы не жалко. Эти студенты опустошительнее пожара будут.

DNA_Seq ★★☆☆☆
(04.02.15 12:46:51 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 04.02.15 08:35:41 MSK

А что с ним будет, если в торрентах хранить?

Либген на сегодняшний момент весит около 10 терабайт. Один миллион книг.

DNA_Seq ★★☆☆☆
(04.02.15 12:48:24 MSK)

Ответ на: комментарий от praseodim 04.02.15 12:38:52 MSK

Только стоит они конских денег. Как раз для наших библиотек, ога.

Lordwind ★★★★★
(04.02.15 12:49:18 MSK)

Ответ на: комментарий от DNA_Seq 04.02.15 12:48:24 MSK

весит около 10 терабайт.

Около 14 по моим данным. Плюс сколько-то терабайт отдельно научные статьи занимают.

praseodim ★★★★★
(04.02.15 13:07:07 MSK)
Последнее исправление: praseodim 04.02.15 13:07:15 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Lordwind 04.02.15 12:49:18 MSK

Только стоит они конских денег. Как раз для наших библиотек, ога.

Ничто не стоит дороже необходимого. Значит гос-ву это было не нужно, например менее нужно, чем асфальт в Москве плиткой перекладывать.

praseodim ★★★★★
(04.02.15 13:08:51 MSK)

Ссылка

Ответ на: комментарий от praseodim 04.02.15 12:42:05 MSK

Древние газеты содержат исторические факты, которые иначе сложно выявить. Если сжечь газеты, то историей можно вертеть как угодно: скажем, присудить определяющую роль во второй мировой Освободительным Войскам Кот-д-Ивуара.

~~Eddy_Em~~ ☆☆☆☆☆
(04.02.15 13:34:48 MSK)

Ответ на: комментарий от Eddy_Em 04.02.15 13:34:48 MSK

Если сжечь газеты

Увы, уже без если :( Между прочим, интересно, кто определяет условия допуска в библиотеку читателей - директор или кто-то выше? В эту ИНИОН просто так попасть нельзя было, условия стали помягче по сравнение с советскими, но не намного: требовалось направление от организации, причем не всякой, а для доступа в некоторые фонды нужен был академический статус.

praseodim ★★★★★
(04.02.15 13:50:29 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 04.02.15 13:34:48 MSK

то историей можно вертеть как угодно: скажем, присудить определяющую роль во второй мировой Освободительным Войскам Кот-д-Ивуара.

Как будто так не делается при наличие документов и фактов, ЛОЛ.

lenin386 ★★★★
(04.02.15 13:56:47 MSK)

Ответ на: комментарий от lenin386 04.02.15 13:56:47 MSK

Если есть документы и факты, то этот бред про роль пиндостана в освобождении мира всеми, кроме совсем уж тупых, воспринимается именно как бред!

Но вот когда пиндосы сожгут все доказательства...

~~Eddy_Em~~ ☆☆☆☆☆
(04.02.15 14:17:40 MSK)

Ответ на: комментарий от Eddy_Em 04.02.15 14:17:40 MSK

Если есть документы и факты, то этот бред про роль пиндостана в освобождении мира всеми, кроме совсем уж тупых, воспринимается именно как бред!

Это полная чушь. Я помню себя, пионера-активиста, секретаря совета дружины. Если бы не perestroika, я бы пошёл в жизнь по партийной линии 100%. Так вот, если бы мне кто-то показал книги, документы, где написано, что Дедушка Ленин - это не такой уж и добрый старичок, что в колхозы шли отнюдь не добровольно, что БАМ построили не комсомольцы, а ЗК, я бы только поржал над такой книгой и надругался бы на ней. Наличие документов - это не всё, надо желание их читать, понимать, и делать выводы.

Но вот когда пиндосы сожгут все доказательства...

Да нафиг не надо ничего жечь. У них север и юг до сих пор разные истории изучает, где хорошие и плохие генералы с точностью до наоборот.

lenin386 ★★★★
(04.02.15 14:25:47 MSK)
Последнее исправление: lenin386 04.02.15 14:29:08 MSK (всего исправлений: 4)

Оно вообще кому-нибудь нужно?

Deleted
(04.02.15 14:28:19 MSK)

Ссылка

Ответ на: комментарий от Lordwind 04.02.15 12:32:00 MSK

Плюс 10-20 секунд на действия руками

Я не укладывался в 10-20 сек., поскольку всегда хочется, чтобы текст был ровный, а не перекошенный. Да и постраничный и без полей, а не разворотами (из-за чего часто ровняться приходится дважды). Особенно мерзко обрабатывать текст близко прилегающий к корешку, который в результате коррекции контраста и яркости превращался в чёрный шум, как у неудачной ксерокопии. Суммарно 1-2 минуты сверху ко времени непосредственного сканирования - 30-75 сек при 450-600 dpi на страницу и ещё 10 сек на получение предварительного превью.

DarkAmateur ★★★★
(04.02.15 14:49:06 MSK)

Ответ на: комментарий от praseodim 04.02.15 12:42:05 MSK

Например, мне было приятно увидеть журнал «Наука и жизнь» за позапрошлый век. Хоть и в отвратительном качестве.

DarkAmateur ★★★★
(04.02.15 14:54:14 MSK)

Ссылка

Ответ на: комментарий от DarkAmateur 04.02.15 14:49:06 MSK

450-600 dpi

Перебор, обычно от 200 dpi уже достаточно

в результате коррекции контраста и яркости превращался в чёрный шум

Потому что надо использовать не чб, а оттенки серого, я некоторые книги даже в цвете сканил, потому что бумага пожелтела от старости... даже потом при сжатии в djvu серая/цветная гамма намного лучше обрабатывается в чб

Особенно мерзко обрабатывать текст близко прилегающий к корешку

Да, визуально он искажается, но не мешает. С какой-то версии файнридер научился выравнивать такой текст и при желании отлично его распознавать. Я начинал с 4й версии и у меня таких плюшек не было.

Lordwind ★★★★★
(04.02.15 15:09:25 MSK)

Ответ на: комментарий от Lordwind 04.02.15 15:09:25 MSK

Перебор, обычно от 200 dpi уже достаточно

Сильно зависит от вопроса для чего? На мой опыт нужно все-таки 300dpi для устойчивого нормального распознавания обычных книг (печатных, без мелкого шрифта). Если делать djvu или pdf, по-хорошему, надо бы вообще 600dpi. Не случайно в библиотеках, где оцифровкой занимаются профессионально, сканируют обычно в 600 dpi, иногда более, если хотят получить действительно качественный результат.

Другое дело, что на любительском уровне такое могут себе не все позволить и имея ввиду скорость работы сканера и ресурсы для хранения и передачи.

praseodim ★★★★★
(04.02.15 15:26:03 MSK)

Ответ на: комментарий от praseodim 04.02.15 15:26:03 MSK

Все так, поэтому я и указал ОТ 200, сам сканил 300 с заделом на будущее, если понадобится распознать хотя бы часть текста. Последние версии файнридера вообще адаптировали к говнофоткам настолько, что после 150 разница мизерная. Плюс на домашних сканерах скорость очень сильно падает после 300. Плюс на компах 10-летней давности просмотр графики в pdf более 300 сильно тормозил, да и на первых планшетах тоже очень туго было. Во всем нужна мера, 300 это отличная золотая середина. Кстати поскольку процесс механический, я еще ТВ смотрел в процессе. Если бы за оцифровку еще денег давали, было бы ваще шикарно.

Lordwind ★★★★★
(04.02.15 15:37:49 MSK)

Ссылка

Ответ на: комментарий от lenin386 04.02.15 14:25:47 MSK

У них север и юг до сих пор разные истории изучает

Ну так серверяне же слишком "гордые", чтобы признаться, что фактически эта гражданская война была тем же, что и в построссийской СССР: нищета-быдлота крушила все подряд из зависти "буржуям".

~~Eddy_Em~~ ☆☆☆☆☆
(04.02.15 15:42:51 MSK)

Ссылка

Ответ на: комментарий от zgen 04.02.15 07:58:10 MSK

Оцифровывать надо в PNG или DjVu. Не нужно ничего вычитывать и перебивать.

~~stevejobs~~ ★★★★☆
(04.02.15 16:03:02 MSK)

Ссылка

Ответ на: комментарий от zgen 04.02.15 08:09:06 MSK

Одна страница сканитсясекунд 30. Вместе с тупняками считаем минуту. В дне 8 часов, т.е. 480 минут. С одного сканера можно сканить 500 страниц в день. Один человек, допустим, может ксерить сразу 3 сканерами, получая 1500 страниц в день. Т.е. один человек гарантированно сканирует 1 большую книгу или пять маленьких. Отдел из 20 человек соответственно может сканить 20-100 книг в день. И понадобится им на всю библиотеку 400 лет.

Но наверное, можно на заказ разработать оборудование, которое будет автоматически листать страницы. Тогда можно будет закупить пару тысяч сканеров и тем же коллективом успеть за несколько лет.

~~stevejobs~~ ★★★★☆
(04.02.15 16:10:14 MSK)

Они, что, всё ещё в ручную сканят? Покажите им: http://youtu.be/03ccxwNssmo

beastie ★★★★★
(04.02.15 16:10:29 MSK)

Ответ на: комментарий от DarkAmateur 04.02.15 14:49:06 MSK

чтобы текст был ровный, а не перекошенный

да насрать вообще. Там большую часть библиотеки никто никогда не читал и читать не будет. Стоит ли стараться сделать качественный скан ради документа, которые в ближайшую сотню лет поднимут от силы пару раз.

Особенно мерзко обрабатывать текст близко прилегающий к корешку,

тоже не нужно. Можно корешок вообще спиливать нафиг. Всё равно все эти книги после оцифровки нужно будет отдать на макулатуру.

книги без корешков проще листать автоматически.

~~stevejobs~~ ★★★★☆
(04.02.15 16:13:45 MSK)

Ответ на: комментарий от beastie 04.02.15 16:10:29 MSK

интересно, как они гарантируют, что не прелистнется несколько страниц сразу. и что делать, если перелистнется.

~~stevejobs~~ ★★★★☆
(04.02.15 16:15:32 MSK)

Ответ на: комментарий от stevejobs 04.02.15 16:15:32 MSK

Автоматическая проверка порядкового номера страницы? Не знаю, но при любом расладе это лучше чем «тыща обезьян со сканерами». ;)

В google тоже над этим работают: http://youtu.be/4JuoOaL11bw

beastie ★★★★★
(04.02.15 16:22:49 MSK)
Последнее исправление: beastie 04.02.15 16:22:58 MSK (всего исправлений: 1)

Ответ на: комментарий от beastie 04.02.15 16:22:49 MSK

В гугле-то как раз тыща обезьян имеется. Но и производительность у них некислая. https://itunion.info/2014/12/kak-google-i-amazon-ekspluatiruyut-trud-nevidimy...

~~stevejobs~~ ★★★★☆
(04.02.15 16:37:58 MSK)

Ссылка

Ответ на: комментарий от stevejobs 04.02.15 16:13:45 MSK

Всё равно все эти книги после оцифровки нужно будет отдать на макулатуру.

Архивные документы в макулатуру? Т'упрлс?

DNA_Seq ★★☆☆☆
(04.02.15 16:46:16 MSK)

Ответ на: комментарий от stevejobs 04.02.15 16:15:32 MSK

Есть специальный софт, который решает задачу контроля за количеством страниц (чтобы не перелистнулось). В простейшем случае, просто следят за совпадением количества страниц в книге и реально отсканированном.

В некоторых профессиональных системах прокладывают страницы, так называемыми сепараторами - распечатанными листами с нанесенным штрих-кодом, опционально - еще и на который заранее в БД записано что-то оператором (логическая разметка). Например, число листов, номер главы и т.д. Потом штрих-коды распознаются и все сверяется с числом реально просканированных листов, можно и сразу разложить в каталоги, в соответствии с логической разметкой, если она делалась, конечно

praseodim ★★★★★
(04.02.15 16:49:41 MSK)
Последнее исправление: praseodim 04.02.15 16:51:24 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от DNA_Seq 04.02.15 16:46:16 MSK

Он упоролся, похожий фак-ап уже произошёл.

http://youtu.be/Vp03vyNspyI (толк на немецком) — в краце: в индустриальных сакнерах xerox лет десять был (и всё ещё есть) баг, который заменял отдельные буквы и цифры в отскранированном материале. (связанно с алкоритвом копрессии на похожих глифах)

Когда это стало известно, пару архивов стали рвать у себя на попе волосы, т.к. они после скана утилизировали оригиналы. А то что у них осталось в виде сканов преватилось в тыкву.

beastie ★★★★★
(04.02.15 16:51:37 MSK)

Ответ на: комментарий от stevejobs 04.02.15 16:10:14 MSK

А теперь вопросы

1. Сколько сотрудников выделили
2. Сколько сканеров выделили
3. На каком оборудовании

~~zgen~~ ★★★★★
(04.02.15 17:22:32 MSK)

Ответ на: комментарий от Eddy_Em 04.02.15 08:36:57 MSK

Проблема в том, что пока ты это _всё_ не прошерстишь и не откаталогизируешь, ты этот десяток тысяч не найдёшь.

Evgueni ★★★★★
(04.02.15 17:46:53 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 04.02.15 13:34:48 MSK

Древние газеты содержат исторические факты, которые иначе сложно выявить.

сначала попробуй доказать связь между фактом и тем, что на древней бумаге намалёвано.

n_play ☆
(04.02.15 19:21:34 MSK)

Ответ на: комментарий от n_play 04.02.15 19:21:34 MSK

Об этом еще Бунин неплохо написал

Молчат гробницы, мумии и кости, —
      Лишь слову жизнь дана:
Из древней тьмы, на мировом погосте,
     Звучат лишь Письмена.

praseodim ★★★★★
(04.02.15 19:27:02 MSK)

Ссылка

Ответ на: комментарий от zgen 04.02.15 17:22:32 MSK

Так это ему, директору, нужно напрячь свою задницу, и найти оборудование и людей. Само собой ничего не делается.

~~stevejobs~~ ★★★★☆
(04.02.15 19:27:51 MSK)

Ответ на: комментарий от beastie 04.02.15 16:51:37 MSK

Этим ИНИАНом никто не пользуется. Иначе говоря, почти всё его содержимое - мусор. При этом оно стоит рядом с метро и жрет бесценное для Москвы городское место. Так что выбор между тем, что совсем это здание к чертям снести (может не само здание, но его содержимое и обитателей утилизировать). И тем, чтобы может быть всё это оцифровать и отправить в дата-центр, находящийся в глухой сибирской тайге, и не жрущий место (но всё равно потом обитателей и содержимое утилизировать). Учитывая «бешеную популярность» содержимого, наверное, даже на оцифровку денег из бюджета не дадут, не то что на продолжение безобразия.

~~stevejobs~~ ★★★★☆
(04.02.15 19:36:30 MSK)

Ответ на: комментарий от stevejobs 04.02.15 19:36:30 MSK

Этим ИНИАНом никто не пользуется. Иначе говоря, почти всё его содержимое - мусор.

Ты неправ, почитай хотя бы статью, объясняющую что такое ИНИОН и какое значение имеет (имела?) его библиотека http://slon.ru/economics/prometeev_ogon_iniona-1210748.xhtml

praseodim ★★★★★
(04.02.15 19:38:38 MSK)

Ответ на: комментарий от stevejobs 04.02.15 19:27:51 MSK

Так это ему, директору, нужно напрячь свою задницу, и найти оборудование и людей. Само собой ничего не делается.

От директора, конечно многое зависит, но и от финансирования тоже.

praseodim ★★★★★
(04.02.15 19:40:30 MSK)
Последнее исправление: praseodim 04.02.15 19:41:51 MSK (всего исправлений: 1)

Ответ на: комментарий от stevejobs 04.02.15 19:27:51 MSK

Так это ему, директору, нужно напрячь свою задницу, и найти оборудование и людей. Само собой ничего не делается.

На свою зарплату что-ли? Или на что?

~~zgen~~ ★★★★★
(04.02.15 19:42:07 MSK)

Ссылка

Ответ на: комментарий от stevejobs 04.02.15 19:36:30 MSK

бесценное для Москвы городское место.

Для постройки очередного бессмысленного торгового центра.

~~zgen~~ ★★★★★
(04.02.15 19:42:47 MSK)

Ссылка

Ответ на: комментарий от praseodim 04.02.15 19:40:30 MSK

А финансирование должен найти как раз директор. Финансирования никто не дает, его выбивают.

~~stevejobs~~ ★★★★☆
(04.02.15 19:47:03 MSK)

Ответ на: комментарий от stevejobs 04.02.15 19:47:03 MSK

Финансирование именно дают или сокращают. На науку например. Выбивать можно мелочь какую-нибудь.

praseodim ★★★★★
(04.02.15 19:55:56 MSK)

Ответ на: комментарий от praseodim 04.02.15 19:38:38 MSK

почитай хотя бы вот эту эпичную статью: http://vas-s-al.livejournal.com/465197.html

~~stevejobs~~ ★★★★☆
(04.02.15 19:57:15 MSK)

Ответ на: комментарий от praseodim 04.02.15 19:55:56 MSK

Выбивать можно мелочь какую-нибудь.

Джимми Уэйлсу мелочи вполне хватает

~~stevejobs~~ ★★★★☆
(04.02.15 20:00:30 MSK)

Ответ на: комментарий от stevejobs 04.02.15 19:57:15 MSK

Читал статью еще несколько дней назад. Чего-то прям невероятно ужасного не увидел в ней. Что в той статье такого, чтобы сделать вывод о ненужности? Ну немного сонные советские еще порядки, дожившие до наших дней как в заповеднике и даже усугубленные. При том, что ведь понадобилось же ему.

praseodim ★★★★★
(04.02.15 20:11:58 MSK)

Ссылка

Ответ на: комментарий от stevejobs 04.02.15 20:00:30 MSK

Значит по-твоему, в обшарпаном внешнем виде и слабом финансировании виноват директор, не умеющий выбивать? Только почему-то до 1992 года директора виноваты не были, а потом что-то их скосило и все сплошь виноваты уже больше 20 лет в науке. Ты открыл новое общественно-социологическое явление :)

praseodim ★★★★★
(04.02.15 20:14:05 MSK)
Последнее исправление: praseodim 04.02.15 20:15:28 MSK (всего исправлений: 1)

Ответ на: комментарий от praseodim 04.02.15 20:14:05 MSK

Значит по-твоему, в обшарпаном внешнем виде и слабом финансировании виноват директор, не умеющий выбивать?

менеджер, отвечающий за проект, всегда во всём виноват. В этом его основная роль, собственно, и состоит.

Только почему-то до 1992 года директора виноваты не были

то есть все сидели, и на цырлах ждали подачки Сверху.

отлично, но нет. И до 1992 года были вменяемые люди.

~~stevejobs~~ ★★★★☆
(04.02.15 21:02:00 MSK)

Ответ на: комментарий от praseodim 04.02.15 20:14:05 MSK

Значит по-твоему, в обшарпаном внешнем виде и слабом финансировании

это не основная проблема. Проблема в том, что там людей почти нет. Вот в моей провинциальной библиотеке имени Горького, почему-то люди еще есть (хотя, что там есть такого, чего нету в компьютере?). А вот в сабжевом мега полезном, по твоим словам, месте, нету никого. Может оно никому кроме 3,5 людей и не нужно вообще?

~~stevejobs~~ ★★★★☆
(04.02.15 21:03:57 MSK)

Ответ на: комментарий от stevejobs 04.02.15 21:03:57 MSK

Может оно никому кроме 3,5 людей и не нужно вообще?

А ты сравни тиражи попсы и специализированных изданий. 100 тыс vs 100 экземпляров. Но без вторых не было бы первых, либо первые писали бы лютую куиту и перевирали бы друг друга.

DNA_Seq ★★☆☆☆
(05.02.15 08:22:54 MSK)

Ссылка

Ответ на: комментарий от stevejobs 04.02.15 21:02:00 MSK

то есть все сидели, и на цырлах ждали подачки Сверху.

Ё-моё, да наука всегда и везде кем-то финансируется, обычно государством, иногда очень крупными корпорациями, которые становятся государствами в государстве, вроде AT&T или IBM в их лучшие годы. Или мелкая Microsoft Research, - это все по сути благотворительные проекты, с рыночной точки зрения не окупаемые, потому что у них срок окупаемости самое меньшее лет 10, а то 50 и даже 100. Про историю, социологию и обществоведение - молчу, это вообще.

В советское время науку поддерживали, строили все эти библиотеки и синхрофазотроны, потом почти не стали, вот и весь расклад, тут какой-то директор ничего особенного не добьется и не выбьет, проблема системный характер имеет. Грубо говоря, если дают миллиард, можно попробовать выклянчить еще полмиллиарда, но если только 50 миллионов, то никак тут не выбьешь даже еще 100. Хотя, в принципе, соглашусь, что в случае с ИНИОН и директор, возможно не на высоте оказался.

praseodim ★★★★★
(05.02.15 12:10:24 MSK)

Предлагаю отсканировать милиарды книг.

pacify ★★★★★
(05.02.15 16:44:36 MSK)

Ссылка

Ответ на: комментарий от praseodim 05.02.15 12:10:24 MSK

наука всегда и везде кем-то финансируется

man fundraising

Xellos ★★★★★
(05.02.15 17:09:51 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

←	Как вы учили фразовые глаголы английского языка?

Talks

Интерактивная карта от гугл

→

Похожие темы