LINUX.ORG.RU

Сообщения LittleBin

 

Скачать сканы в обход хитрого вьюера с зумифаем

Получил задание выкачать эти сканы, но не сумел найти выхода на картинки с высоким разрешением. Подскажите, пожалуйста, если сталкивались с таким:

https://web.nli.org.il/sites/NLI/English/digitallibrary/pages/viewer.aspx?&presentorid=MANUSCRIPTS&docid=PNX_MANUSCRIPTS000086226-1

 , ,

LittleBin
()

Скачать сканы книги в обход вьюера (кеширующего нарезку сканов)

Не могли бы вы помочь скачать эту книгу? --

http://www.bl.uk/manuscripts/Viewer.aspx?ref=harley_ms_5786_fs001v

Обычно в подобных случаях я смотрю адреса кешированных картинок, но в этом случае я в кеше вижу нарезку страниц квадратами. Не знаю, как заполучить линки, ведущие на сканы страниц.

 

LittleBin
()

Автоматизированно сохранить картинки с web-страницы

На этой странице размещено 45 картинок (диафильм) — предупреждение: при загрузке страницы браузер может притормозить на 2-3 секунды --

https://ria.ru/society/20170104/1485150302.html

Мне нужно было их скачать, и я с удивлением обнаружил, что не могу этого сделать никаким способом, кроме как вручную. Вручную я их одну за другой сохранил.

Но м.б. кто-то подскажет, как можно в подобных случаях сохранить автоматизированно, в bash'e?

URL картинок, кажется, постоянные, но в html-коде страницы их нет. Обычные приемы с curl | grep споткнулись об это.

 ,

LittleBin
()

Скрипт pdfocr на Ruby : извлечь команду соединения картинки и текста из кода?

В скрипте pdfocr на Руби есть две проблемы: (1) у распознанного pdf’a размер безумно больше, чем у входящего; (2) нет опции соединения языков для tesseract, вроде rus+eng. В связи с этим его использование затруднено, и хочется сделать всё то же, что делает он, но самому и полноценно. Основной вопрос:

Какой командой можно объединить в pdf распознаваемую скан-картинку и текстовый файл-вывод tesseract так, чтобы в объединенном pdf’e собственно текст накладывался на текст картинки, и его можно было выделять и копировать?

Знатоки Руби, помогите, пожалуйста, извлечь понимание этого момента из кода скрипта. Код скрипта: https://github.com/gkovacs/pdfocr

 

LittleBin
()

Скачать фильм с Youtube (youtube-dl, FlashGot, savefrom.net не сработали)

Как скачать этот фильм? https://www.youtube.com/watch?v=yZfe6QUJihw

Обычно применяемые способы скачивания, т.е. youtube-dl и FlashGot, а также savefrom.net не сработали.

 ,

LittleBin
()

Научите скачивать книги в обход онлайнового вьюера

 

LittleBin
()

Синхронизация данных с rsync (именно rsync) на бесплатный сервер

Считаю, что все программы-клиенты – бэкдоры, устал от них, удалил все и хочу настроить классическую синхронизацию данных на сервер и обратно с помощью rsync. Но у меня нет своего сервера. Поэтому вопрос, работает ли кто-нибудь с помощью rsync (именно rsync!) с такими серверами как ГуглДрайв или ЯндексДиск. Информацию (чтобы именно про rsync) искал, но не нашел, если кто подскажет или поделится опытом, буду благодарен.

 ,

LittleBin
()

Google Drive : Огромное количество файлов. Как скачать?

Получил на свой гуглодрайв огромное количество файлов в разных папках, общий объём десятки терабайт. Их нужно скачать порциями и перекинуть на внешние харды. Получалось ли у кого-нибудь скачивать с гуглодрайва с помощью wget или curl?

 , , , ,

LittleBin
()

Копирование многостраничного материала скриншотами?

"...скоро издательства перейдут на системы типа ReadCube, которые не позволят так легко выкачивать контент, как это можно сделать сейчас. ReadCube позволяет делать такие маразматичные вещи, как сдавать статью в аренду, например. 24 часа за шесть долларов. И главное — статьи нельзя будет скачивать. Точнее, скачать можно будет всё что угодно, но это будет технически намного сложнее..."

http://www.furfur.me/furfur/freedom/freedom/216751-sci-hub

Сказанное породило вопрос: а есть ли прога, которая может элегантно отскриншотить статью «сданную в аренду»?

 ,

LittleBin
()

Есть ли «консольный Scan Tailor»? Чтоб делал ч-б по порогу пакетом?

subj.

 , , ,

LittleBin
()

Рекурсивная замена пробелов (и пр.) в именах файлов ?

for file in *; do mv "$file" `echo $file | sed 's/[^.[:alnum:]]/_/g' | awk '{ print tolower($0) }'`; done

Как это сделать рекурсивно по всему /media/me/hard/ ?

 , ,

LittleBin
()

Часто используемые в bash-скриптах переменные отдельным файлом?

При написании скриптов я часто начинаю с перечисления одних и тех же простых переменных, типа abc=«123». Как мне сделать, чтобы в одном файле были перечислены все используемые переменные, а в каждом новом bash-скрипте указывать "переменные бери из файла vars"?

 , ,

LittleBin
()

rsync -rthpq : потеря сим. ссылок и прав/исполняемости скриптов

Обычно делал синхронизацию/бэкап дом. раздела так:

rsync -rthpq --delete /home/ /где-примонтирован-диск/home/

А восстановив с копии некоторую часть, заметил, что во-первых, нет сим. ссылок, и во-вторых, не работают скрипты («Нет доступа»). Проблемы со ссылками и скриптами решил, но не понял, что делал не так. Подскажите, пож., как делать синхронизацию с помощью rsync, чтобы всё сохранялось и всё восстанавливалось без потери прав и исполняемости.

 , , , ,

LittleBin
()

Поиск части текста не в строке, а через строки - как?

$ echo "Мой дядя самых честных правил,
> Когда не в шутку занемог,
> Он уважать себя заставил
> И лучше выдумать не мог." > uncle
$ egrep 'дядя.+правил' uncle
Мой дядя самых честных правил,
$

А как найти 'дядя.+заставил' ?

 , , ,

LittleBin
()

re.UNICODE : how to? (Python)

Цитата:

\w
If UNICODE is set, this will match anything other than [0-9_] plus characters classified as not alphanumeric in the Unicode character properties database.

Как установить этот параметр: UNICODE, импортируя модуль re?

PS: Если у вас под рукой ссылка на толковое руководство по анализу текста средствами Питона, поделитесь, пожалуйста.

 , ,

LittleBin
()

awk : print filename ?

Известно, что

egrep keyword *

в начале каждой строки с keyword покажет имя файла, из которого эта строка.

Есть причины, по которым я использую awk вместо egrep.
Но не знаю как сделать, чтобы awk так же выводил имя файла перед строкой с keyword.
Подскажите, пожалуйста.

 , ,

LittleBin
()

Порядковые номера в именах файлов

Есть много файлов. Часть из них имеет имена:

...
015701_что-то_еще_про_содержание_файла.расширение
015702_что-то_еще_про_содержание_файла.расширение
015703_что-то_еще_про_содержание_файла.расширение

А другая часть — с именами без порядковых номеров.
Технологически нужно, чтобы все остальные файлы приобрели имена:

015704_уже_данное_ранее_имя.расширение
015705_уже_данное_ранее_имя.расширение
015706_уже_данное_ранее_имя.расширение

и т.д. То есть к каждому имени спереди добавить порядковый номер, начиная с 015704.

Как это автоматизировать простейшим способом?

 ,

LittleBin
()

Как указать wget, что скачивать нужно только файлы у которых в имени есть сочетание букв prt ?

subj., pls

 ,

LittleBin
()

Обработка нумерованных файлов: с 1 по 15, а не с 10 по 15 и затем с 1 по 9 ?

Есть несколько файлов с именами a1 a2 a3 ... a15 и при любой конверсии обрабатываются сначала a10-a15, а затем a1-a9. Как задать последовательность обработки с 1-го по 15-й?

 ,

LittleBin
()

Удалить первую страницу у 1000 PDFов ?

как сделать subj. из командной строки?

не извлечь, а именно удалить! чтобы вся тысяча осталась как есть, но каждый - без первой страницы (с рекламой).

 , ,

LittleBin
()

RSS подписка на новые темы