Скачать сканы в обход хитрого вьюера с зумифаем
Получил задание выкачать эти сканы, но не сумел найти выхода на картинки с высоким разрешением. Подскажите, пожалуйста, если сталкивались с таким:
—
Получил задание выкачать эти сканы, но не сумел найти выхода на картинки с высоким разрешением. Подскажите, пожалуйста, если сталкивались с таким:
—
Не могли бы вы помочь скачать эту книгу? --
http://www.bl.uk/manuscripts/Viewer.aspx?ref=harley_ms_5786_fs001v
Обычно в подобных случаях я смотрю адреса кешированных картинок, но в этом случае я в кеше вижу нарезку страниц квадратами. Не знаю, как заполучить линки, ведущие на сканы страниц.
На этой странице размещено 45 картинок (диафильм) — предупреждение: при загрузке страницы браузер может притормозить на 2-3 секунды --
https://ria.ru/society/20170104/1485150302.html
Мне нужно было их скачать, и я с удивлением обнаружил, что не могу этого сделать никаким способом, кроме как вручную. Вручную я их одну за другой сохранил.
Но м.б. кто-то подскажет, как можно в подобных случаях сохранить автоматизированно, в bash'e?
URL картинок, кажется, постоянные, но в html-коде страницы их нет. Обычные приемы с curl | grep споткнулись об это.
В скрипте pdfocr на Руби есть две проблемы: (1) у распознанного pdf’a размер безумно больше, чем у входящего; (2) нет опции соединения языков для tesseract, вроде rus+eng. В связи с этим его использование затруднено, и хочется сделать всё то же, что делает он, но самому и полноценно. Основной вопрос:
Какой командой можно объединить в pdf распознаваемую скан-картинку и текстовый файл-вывод tesseract так, чтобы в объединенном pdf’e собственно текст накладывался на текст картинки, и его можно было выделять и копировать?
Знатоки Руби, помогите, пожалуйста, извлечь понимание этого момента из кода скрипта. Код скрипта: https://github.com/gkovacs/pdfocr
Как скачать этот фильм? https://www.youtube.com/watch?v=yZfe6QUJihw
Обычно применяемые способы скачивания, т.е. youtube-dl и FlashGot, а также savefrom.net не сработали.
Считаю, что все программы-клиенты – бэкдоры, устал от них, удалил все и хочу настроить классическую синхронизацию данных на сервер и обратно с помощью rsync. Но у меня нет своего сервера. Поэтому вопрос, работает ли кто-нибудь с помощью rsync (именно rsync!) с такими серверами как ГуглДрайв или ЯндексДиск. Информацию (чтобы именно про rsync) искал, но не нашел, если кто подскажет или поделится опытом, буду благодарен.
Получил на свой гуглодрайв огромное количество файлов в разных папках, общий объём десятки терабайт. Их нужно скачать порциями и перекинуть на внешние харды. Получалось ли у кого-нибудь скачивать с гуглодрайва с помощью wget или curl?
"...скоро издательства перейдут на системы типа ReadCube, которые не позволят так легко выкачивать контент, как это можно сделать сейчас. ReadCube позволяет делать такие маразматичные вещи, как сдавать статью в аренду, например. 24 часа за шесть долларов. И главное — статьи нельзя будет скачивать. Точнее, скачать можно будет всё что угодно, но это будет технически намного сложнее..."
http://www.furfur.me/furfur/freedom/freedom/216751-sci-hub
Сказанное породило вопрос: а есть ли прога, которая может элегантно отскриншотить статью «сданную в аренду»?
subj.
for file in *; do mv "$file" `echo $file | sed 's/[^.[:alnum:]]/_/g' | awk '{ print tolower($0) }'`; done
Как это сделать рекурсивно по всему /media/me/hard/ ?
При написании скриптов я часто начинаю с перечисления одних и тех же простых переменных, типа abc=«123». Как мне сделать, чтобы в одном файле были перечислены все используемые переменные, а в каждом новом bash-скрипте указывать "переменные бери из файла vars"?
Обычно делал синхронизацию/бэкап дом. раздела так:
rsync -rthpq --delete /home/ /где-примонтирован-диск/home/
А восстановив с копии некоторую часть, заметил, что во-первых, нет сим. ссылок, и во-вторых, не работают скрипты («Нет доступа»). Проблемы со ссылками и скриптами решил, но не понял, что делал не так. Подскажите, пож., как делать синхронизацию с помощью rsync, чтобы всё сохранялось и всё восстанавливалось без потери прав и исполняемости.
$ echo "Мой дядя самых честных правил,
> Когда не в шутку занемог,
> Он уважать себя заставил
> И лучше выдумать не мог." > uncle
$ egrep 'дядя.+правил' uncle
Мой дядя самых честных правил,
$
А как найти 'дядя.+заставил' ?
Цитата:
\w
If UNICODE is set, this will match anything other than [0-9_] plus characters classified as not alphanumeric in the Unicode character properties database.
Как установить этот параметр: UNICODE, импортируя модуль re?
PS: Если у вас под рукой ссылка на толковое руководство по анализу текста средствами Питона, поделитесь, пожалуйста.
Известно, что
egrep keyword *
в начале каждой строки с keyword покажет имя файла, из которого эта строка.
Есть причины, по которым я использую awk вместо egrep.
Но не знаю как сделать, чтобы awk так же выводил имя файла перед строкой с keyword.
Подскажите, пожалуйста.
Есть много файлов. Часть из них имеет имена:
...
015701_что-то_еще_про_содержание_файла.расширение
015702_что-то_еще_про_содержание_файла.расширение
015703_что-то_еще_про_содержание_файла.расширение
А другая часть — с именами без порядковых номеров.
Технологически нужно, чтобы все остальные файлы приобрели имена:
015704_уже_данное_ранее_имя.расширение
015705_уже_данное_ранее_имя.расширение
015706_уже_данное_ранее_имя.расширение
и т.д. То есть к каждому имени спереди добавить порядковый номер, начиная с 015704.
Как это автоматизировать простейшим способом?
subj., pls
Есть несколько файлов с именами a1 a2 a3 ... a15 и при любой конверсии обрабатываются сначала a10-a15, а затем a1-a9. Как задать последовательность обработки с 1-го по 15-й?
как сделать subj. из командной строки?
не извлечь, а именно удалить! чтобы вся тысяча осталась как есть, но каждый - без первой страницы (с рекламой).
следующие → |