LINUX.ORG.RU
ФорумTalks

библиотека\каталогизатор работающая с офлайн архивами книг

 , , ,


2

1

В связи с тем что онлайн библиотеки постоянно закрываются, становятся платными или удаляют доступ к контенту(по требованию всяких проходимцев) я держу у себя на диске скачанный с торрентов fb2 архив флибусты.

Для онтопика есть всего одна библиотека\каталогизатор работающая с архивами тысячниками - myrulib. При попытке им воспользоваться от слетел с сегфолтом и работать отказался. Я пытался его вразумить(пробовал разные версии, перекачивал «сбойные» архивы) несколько дней, но ничего не вышло. В итоге кончилось терпение и я решил написать свой велосипед. Это все было предыстория.

История в том, что велосипед я все таки написал и зазвал его SimpleLib. Велосипед написал на Qt. Написал его для себя, поэтому функциональность максимально простая: Парсит 100Гб архивов с fb2, складывает информацию о книгах в SQLite БД, после чего выводится список авторов и при выборе автора список книг. Книгу можно открыть ассоциированным приложением и можно экспортировать в заранее настроенный каталог(я из него планирую на читалку перекидывать).

Что хочу от ЛОРа: Узнать интересен ли мой велосипед кому-нибудь.

Если интересен, то я причешу код и выложу его на гитхаб. Если неинтересен, то оставлю для личного пользования и не буду заморачиваться чисткой говнокода.

★★★★★
Ответ на: комментарий от Suntechnic

Только у меня вся работа заточена на архивы с fb2. Т.е. я не 250Гб сборник с pdf-ми и DJVU мучаю, а 130Гб. Так что если fb2(xml) не парсится, то я файл такой пропускаю просто.

Loki13 ★★★★★
() автор топика

Велосипед интересен, но то что он на Qt... Да, у меня тулкитофобия. Хотя GTK3 я ненавижу больше.

StReLoK ☆☆
()
Ответ на: комментарий от Loki13

fb2 это xml? Занятно, не знал.
По сабжу - ждём ебилдов.

NeverLoved ★★★★★
()

Давай, вперёд!
Сейчас такое время, когда технические возможности уже позволяют хранить дома чуть ли не всё нормальное, что было написано за время существования человека и когда копирасты ещё не до конца захватили власть.

Stahl ★★☆
()

Неторопливый fb2 + тормознутое Qt, страшно даже представить какое железо требуется для этого велосипеда.

Lavos ★★★★★
()

Да, интересно. То, что на Qt, отлично. Работать хоть будет нормально и очень быстро под любой доступной системой.

EXL ★★★★★
()

Во, хоть кто-то делает что-то полезное!
Удачи! И на гитхаб - обязательно, в случае чего флаг подхватят.

Hurenweibel ★★
()

При попытке им воспользоваться от слетел с сегфолтом и работать отказался.

У меня тоже слетал. В задумчивости его запускал - он слетал, запускал - слетал, где-то на 10-й раз таки запустился и заработал. В общем, иногда он работает :)

История в том, что велосипед я все таки написал и зазвал его SimpleLib. Велосипед написал на Qt. Написал его для себя, поэтому функциональность максимально простая: Парсит 100Гб архивов с fb2, складывает информацию о книгах в SQLite БД, после чего выводится список авторов и при выборе автора список книг. Книгу можно открыть ассоциированным приложением и можно экспортировать в заранее настроенный каталог(я из него планирую на читалку перекидывать).

За сколько времени парсит? Он парсит только fb2? Не использует индексы, которые вместе с архивом шли?

Если интересен, то я причешу код и выложу его на гитхаб.

Интересен. Но лучше тему завести на самой флибусте, тем более там регистрацию открыли.

praseodim ★★★★★
()
Ответ на: комментарий от Stahl

Архив либгена сейчас занимает 13 Тб =) Хранить можно, но не совсем просто и не очень дешево, учитывая нынешние цены вообще и на жесткие диски в том числе.

praseodim ★★★★★
()
Ответ на: комментарий от praseodim

Ну всяких Донцовых и Перумовых можно выбросить без культурных потерь. Глядишь посте таких чисток 2-3 ТиБ и останется.
Впрочем 13 это тоже не так уж и много если поставить себе цель:)

Stahl ★★☆
()
Ответ на: комментарий от Stahl

На либгене итак нет Донцовых с Перумовами. Это научно-техническая библиотека. Большой объем за счет того, что технические книги в основном в графических форматах хранятся.

praseodim ★★★★★
()
Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от Lavos

Неторопливый fb2 + тормознутое Qt, страшно даже представить какое железо требуется для этого велосипеда.

1000 из zip-архива книг парсит за 10 секунд(про 3 скорее соврал все таки). сегодня проведу тест на 450 архивах тысячниках. myrulib парсил их(когда не сегфолтился) часа 3. Я рассчитываю на то что будет минут 10 парсить и база SQLite будет 50Мб на выходе. Для 130Гб книг считаю это нормальным. Это же делается 1 раз при скачивании архива.

Loki13 ★★★★★
() автор топика
Последнее исправление: Loki13 (всего исправлений: 1)
Ответ на: комментарий от EXL

Работать хоть будет нормально и очень быстро под любой доступной системой.

Я пока кроме линукса ни на что не рассчитываю, т.к. под венду уже есть годный myhomelib, а для всяких мобильных нет смысла в такой проге. Хотя фиг знает во что оно разовьется.

Loki13 ★★★★★
() автор топика
Ответ на: комментарий от Hurenweibel

Удачи! И на гитхаб - обязательно, в случае чего флаг подхватят.

Думаю на след. неделе подвыгребу говнокод(а то стыдно) и функциональность минимальную закончу. Тогда и выложу. Там уже в dev тему создам.

Loki13 ★★★★★
() автор топика
Ответ на: комментарий от Evgueni

А где, кстати, архивы искать?

Я на nnm-club скачал неофициальный архив либрусека(думаю на других торрентах тоже есть). 130Гб fb2 книг. есть еще вариант с pdf и djvu, но меня он не интересовал и был в 2 раза больше.

Loki13 ★★★★★
() автор топика
Ответ на: комментарий от praseodim

За сколько времени парсит? Он парсит только fb2? Не использует индексы, которые вместе с архивом шли?

Парсит за секунд 5-15 архив с 1000 книг. В 130Гб раздаче 450 архивов тысячников. Сегодня замеряю точно вечером.

Интересен. Но лучше тему завести на самой флибусте, тем более там регистрацию открыли.

Думаю там линуксоидов негусто, а для офтопика есть myhomelib годный.

Loki13 ★★★★★
() автор топика
Последнее исправление: Loki13 (всего исправлений: 1)
Ответ на: комментарий от knovich

http://libgen.in идем в раздел Downloads, качаем торренты и дампы базы. Архив организован каталогами по следующему принципу: на каждые 1000 файлов (иногда менее по разным причинам) по каталогу. Каждый каталог - один торрент. Имена файлов внутри каталога = md5 хешу от содержимого файла.

praseodim ★★★★★
()
Ответ на: комментарий от praseodim

А дампы достаточно только самые свежие качать? И в каком они формате? Есть какой-то клиент для либгена специальный вроде, да?

knovich
()
Ответ на: комментарий от knovich

Да, дампы достаточно самые свежие. Не совсем понимаю, зачем они держат и старые тоже. Формат уже не помню. Вроде основной - это дамп mysql базы, но там есть или был csv и xls. Про специальный клиент для либгена не помню. Вроде бы нет, но есть исходники сайта, так что можно зеркало поднять, хотя бы локальное, впрочем сам не пробовал.

praseodim ★★★★★
()

Есть же freelib. Правда, автор почему-то исходники не открыл.

Если сделаешь годную софтину и она будет в репах, то конечно надо.

user42 ★★
()

>торренты, краденное, варез, свободный обмен

к слову, где можно найти книжек _на английском_ языке?

скажем, всякая художественная литература? поисковики зачастую выдают только ссылки на амазон и обзоры, а я так не могу, мне нужно предварительно ознакомиться.

пару раз находил в маргинальных обменных сетях типа direct connect и прочих, но это ведь не то.

wakuwaku ★★★★
()

Интересен! Код можешь не причёсывать Ж)

truf
()
Ответ на: комментарий от ieeya

А какие отличия от того же Calibre?

Calibre не умеет работать с архивами и хранить только индекс. Если в Calibre сделать импорт из этих архивов тысячников(которые в торренте раздаются), то он распакует все книги и сложит в свою структуру. Еще и файлы переименует. А зачем мне копия 130 заархивированных гигабайт?

Loki13 ★★★★★
() автор топика
Ответ на: комментарий от praseodim

Вроде бы регистрация теперь работает, хоть так и не пришло письмо с паролем. Сойдёт, спасибо.

wakuwaku ★★★★
()
Ответ на: комментарий от user42

Есть же freelib

Посмотрел. Не нашел как импортировать книги(индекс создать) из архивов.

У меня цель не еще один каталогизатор, которых и правда не мало, да еще и с кучей фич(Calibre), а я делал простейший индексатор книг в 450 архивах по 1000 книг и чтобы потом можно было быстро(наставив галочек) скопировать из этих архивов книги в фб2.

Loki13 ★★★★★
() автор топика
Ответ на: комментарий от Loki13

Да я всего лишь интересуюсь, чтобы знать что это, если вдруг понадобится. Calibre ставил только чтобы .mobi читать. Сам я такие каталогизаторы не люблю, и зачем мне 130гб книг не знаю.

ieeya
()
Ответ на: комментарий от praseodim

Он парсит только fb2? Не использует индексы, которые вместе с архивом шли?

С архивом нет индексов. Только архив с именем 1-1000.zip в котором 1000 книг в формате Aarh_Andrej_Aida.fb2 Вот приходится открывать архив, в нем каждую книгу, парсить xml и складывать в базу. Вот и вся функциональность для первой версии. Мне вроде хватает для моего юзкейса, но уже есть идеи по развитию. Вроде загрузки сразу на читалку, конвертации перед загрузкой, поиск информации о книгах в онлайн базах(это пока что из области фантазий влажных).

Loki13 ★★★★★
() автор топика
Ответ на: комментарий от ieeya

Сам я такие каталогизаторы не люблю, и зачем мне 130гб книг не знаю.

Флибуста например уже R.I.P. Где сейчас брать книги я уже и не знаю(можно конечно с флибусты в i2p, но это за гранью уже). Вот хорошо что 130Гб на винте лежит. Я читаю 1-3 книги в неделю в зависимости от настроения и кол-ва свободного времени. Вот и приходится держать много книг.

Loki13 ★★★★★
() автор топика

Локальный - не интересен. Читают давно с планшетов, читалок и телефонов, поэтому локальный каталогизатор не нужен - ну или максимум нужен как довесок к веб-версии.

no-dashi ★★★★★
()
Ответ на: комментарий от ieeya

Я просто не знаю, что буду читать через год. Потому мне легче будет найти, чем заранее запастись.

Так если у тебя 130Гб художественной литературы, что является 80% всей художественной литературы, кроме наиболее редкой. Зачем знать что будешь читать, если у тебя с вероятностью 95% она уже скачана. Я для того и скачал - на случай что прикроют все онлайн библиотеки, а у меня всё скачано и хватит книг до конца жизни.

Loki13 ★★★★★
() автор топика
Ответ на: комментарий от no-dashi

Локальный - не интересен.

Так это для создания индекса к книгам с торрента. Онлайн и так есть во всяких флибустах\либрусеках, а вот проиндексировать(и потом удобно загонять в читалку) честно сворованноескачанное - нечем.

Я и читаю киндлом, но вот книги все сложнее и сложнее качать. флибуста вон уже с плашками «скачивание запрещено по требованию правообладателя» на 70% книг.

Loki13 ★★★★★
() автор топика
Последнее исправление: Loki13 (всего исправлений: 1)
Ответ на: комментарий от Loki13

Зачем знать что будешь читать, если у тебя с вероятностью 95% она уже скачана.

Куда больше чем 5% вероятность что нужной тебе книги не будет.

ieeya
()
Ответ на: комментарий от ieeya

Куда больше чем 5% вероятность что нужной тебе книги не будет.

Возможно ты читаешь очень редкие и эксклюзивные книги. Тогда да. Я вот достаточно стандартные вещи читаю Стругацкие, Лем, Желязны, Муркок,Макс Фрай и Перумов. Такого рода книги с вероятностью близкой к 100% будут в библиотеке. Там даже Пьер Абеляр есть, Агриппа и Абэ Кобо. Я на них парсинг тестирую :)

Loki13 ★★★★★
() автор топика
Ответ на: комментарий от Loki13

С архивом нет индексов. Только архив с именем 1-1000.zip в котором 1000 книг в формате Aarh_Andrej_Aida.fb2

Я имел ввиду индексы в раздаче, там inpx или что-то еще точно было. Или это отдельно с myrulib шло не помню :)

praseodim ★★★★★
()
Ответ на: комментарий от praseodim

Или это отдельно с myrulib шло не помню :)

myrulib тоже парсит, причем не быстро. а у меня еще и сегфолтиться на некоторых архивах.

Loki13 ★★★★★
() автор топика
Ответ на: комментарий от praseodim

??????

У них на половине книг плашка «ограничено по требованию правообладателя». Есть вариант флибусты без этого непотребства в i2p, но это уже совсем за гранью.

Loki13 ★★★★★
() автор топика

Вот, точно. Надо тоже стянуть с торрентов архив.

Zhbert ★★★★★
()
Ответ на: комментарий от Loki13

А почему за гранью-то? Флибуста через i2p или tor сейчас, по-моему, единственная библиотека художественной литературы вообще, в которой таким образом доступны все книги. По крайней мере из крупных и широко известных. А ты RIP...

praseodim ★★★★★
()
Последнее исправление: praseodim (всего исправлений: 1)

У меня myrulib взлетел. Устанавливал из git с помощью ебилда с официального сайта.

the_mozart
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.