LINUX.ORG.RU
ФорумTalks

Масштаб катострофы копирастии на Руси [наши нравы] [их нравы]

 


0

1

Из 1,5 миллиона оригинальных и ценных книг, необходимых для нормального культурного жизнеобеспечения общества, доступно не более трети, причем, редкая книга значительно перевешивает вместе взятые классическую и актуальную. Пока такая ситуация будет сохраняться, не стоит уповать на перспективы развития цифрового рынка и бороться с пиратством: оно, по крайней мере, сохраняет нас в рядах культурных народов.

http://ekniga.livejournal.com/1469782.html

копируются в законодательство только идиотские законы в пользу копирастов. законы в пользу читателей и книг оказываются «неприемлимы». между тем то в какой ж.. находится текущая ситуация показано в приведенной цитате. указанных полтора миллиона это всего навсего 30 процентов от книг изданных с 60х годов в Союзе. реально всего речь идет о приблизительно 10 миллионах наименований значимых произведений.

теперь осталось это сравнить с 300 тысяч всех электронных книг в обороте (или 70 тысяч легальных эл.книг).

★★★★★
Ответ на: комментарий от Miguel

В отличие от тебя я этот ман читал.

незаметно что понял :)

я не знаю, сколько тебе лет

слабоватый из тебя аналитик. :)

в день я читал 2-3 книги объемом 150-250 страниц. теперь читаю медленнее, специально себя убедил :)

И эти библиотеки сильно пересекаются.

и это ничуть не ограничивает число доступных «редких» книг.

будем считать?

доступно 100 библиотек по 1000 книг, во всех них присутствует по 100 одинаковых (или ты будешь иметь наглость утверждать что больше?) в результате 90000 редких книг доступны отдельно взятому читателю. пусть 500 книг совпадает, тогда имеем 50000 книг с уникальными названиями. пусть совпадает 800 книг, тогда 20000 редких книг доступны каждому в среде лично знакомых. пусть только 100 книг из 1000 уникальны, тогда 10000 книг.

причем у всех свой круг знакомых и разный набор этих тысяч редких книг.

ну что, математик? :)

скажу заранее --- если думаешь, что результат сильно изменится, если мы построим монтекарло по числу книг, объему их тиражей и размеру личных библиотек то ты ошибаешься.

psv1967 ★★★★★
() автор топика
Ответ на: комментарий от psv1967

более затратным (но и пожалуй превосходящим гуглоакадемию по функционалу) допилить либы ML алгоритмов применяемые в citeseer до момента распознования русской библиографии (это потихоньку делаю :) )

Можно поподробнее с этого места?

Suntechnic ★★★★★
()
Ответ на: комментарий от Suntechnic

движек представляющий из себя реинкарнация citeseer полностью открыт. его перевели на стек обработки документов от апачевского фонда программного обеспечения.

паук качает. проиндексированные документы раздаются и ищутся. ссылки посчитываются.

весь он является уникод прозрачным. часть которая отвечает за автоматическую каталогизацию (перловая библиотека, котрая обертка поверх CRF++) увы имеет обученный алгоритм только для анлийского языка. весть разбор вручную естественно не реально.

в основе как сказано лежит CRF алгоритм, на вход которого подается найденная библиографическая запись в режиме по словам + их граммам + куча эврестических фич срабатывающих по словарям.

вот эту часть потихоньку делаем. корпус записей с ручной разметкой + словари + генерация фич для эксперимента. когда получится тегер будем встраивать модель в библиотеку + дорабатывать эвристики в парсере текста (их немного там) до понимания организации кирилического текста.

если взлетит, можно будет попытаться его захостить и натравить бегать по .ru

psv1967 ★★★★★
() автор топика
Ответ на: комментарий от Miguel

насчёт девятисотого раза возражений нет.

нет конечно. А ты мог-бы и один раз внятно сказать.

drBatty ★★
()
Ответ на: комментарий от ZenitharChampion

раньше народ активно использовал свои адреса как почтовые ящики при почтовом отделении. но это на получение, помогает ли при отправке не знаю.

psv1967 ★★★★★
() автор топика
Ответ на: комментарий от ZenitharChampion

Господи, что же ты за книгу там отправляешь? Уж не Толстого ли?

Suntechnic ★★★★★
()
Ответ на: комментарий от psv1967

Я не совсем понял как паук ищет что качать? Он нацеливается вручную или ... тут я даже не знаю что подумать.

Suntechnic ★★★★★
()
Ответ на: комментарий от Suntechnic

паук рекурсивно обегает страницы и выдирает _все_ документы. всё что имеет библиографию в индексатор идет.

ну как любой интернет поисковик работает.

psv1967 ★★★★★
() автор топика
Ответ на: комментарий от Solace

Красть книги

На них же специальные метки наносят, из магазина сложно вынести незаметно.

radg ★★★★
()
Ответ на: комментарий от psv1967

Ну я так примерно и подумал после «или». А как он определяет наличие библиографии? Т.е. примерно ясно, но насколько точно? А где-нибудь можно посмотреть как это работает?

Suntechnic ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.