LINUX.ORG.RU

Сообщения LittleBin

 

Скачать сканы в обход хитрого вьюера с зумифаем

Форум — General

Получил задание выкачать эти сканы, но не сумел найти выхода на картинки с высоким разрешением. Подскажите, пожалуйста, если сталкивались с таким:

https://web.nli.org.il/sites/NLI/English/digitallibrary/pages/viewer.aspx?&presentorid=MANUSCRIPTS&docid=PNX_MANUSCRIPTS000086226-1

 , ,

LittleBin
()

Скачать сканы книги в обход вьюера (кеширующего нарезку сканов)

Форум — General

Не могли бы вы помочь скачать эту книгу? --

http://www.bl.uk/manuscripts/Viewer.aspx?ref=harley_ms_5786_fs001v

Обычно в подобных случаях я смотрю адреса кешированных картинок, но в этом случае я в кеше вижу нарезку страниц квадратами. Не знаю, как заполучить линки, ведущие на сканы страниц.

 

LittleBin
()

Автоматизированно сохранить картинки с web-страницы

Форум — General

На этой странице размещено 45 картинок (диафильм) — предупреждение: при загрузке страницы браузер может притормозить на 2-3 секунды --

https://ria.ru/society/20170104/1485150302.html

Мне нужно было их скачать, и я с удивлением обнаружил, что не могу этого сделать никаким способом, кроме как вручную. Вручную я их одну за другой сохранил.

Но м.б. кто-то подскажет, как можно в подобных случаях сохранить автоматизированно, в bash'e?

URL картинок, кажется, постоянные, но в html-коде страницы их нет. Обычные приемы с curl | grep споткнулись об это.

 ,

LittleBin
()

Скрипт pdfocr на Ruby : извлечь команду соединения картинки и текста из кода?

Форум — General

В скрипте pdfocr на Руби есть две проблемы: (1) у распознанного pdf’a размер безумно больше, чем у входящего; (2) нет опции соединения языков для tesseract, вроде rus+eng. В связи с этим его использование затруднено, и хочется сделать всё то же, что делает он, но самому и полноценно. Основной вопрос:

Какой командой можно объединить в pdf распознаваемую скан-картинку и текстовый файл-вывод tesseract так, чтобы в объединенном pdf’e собственно текст накладывался на текст картинки, и его можно было выделять и копировать?

Знатоки Руби, помогите, пожалуйста, извлечь понимание этого момента из кода скрипта. Код скрипта: https://github.com/gkovacs/pdfocr

 

LittleBin
()

Скачать фильм с Youtube (youtube-dl, FlashGot, savefrom.net не сработали)

Форум — General

Как скачать этот фильм? https://www.youtube.com/watch?v=yZfe6QUJihw

Обычно применяемые способы скачивания, т.е. youtube-dl и FlashGot, а также savefrom.net не сработали.

 ,

LittleBin
()

Научите скачивать книги в обход онлайнового вьюера

Форум — General

 

LittleBin
()

Синхронизация данных с rsync (именно rsync) на бесплатный сервер

Форум — General

Считаю, что все программы-клиенты – бэкдоры, устал от них, удалил все и хочу настроить классическую синхронизацию данных на сервер и обратно с помощью rsync. Но у меня нет своего сервера. Поэтому вопрос, работает ли кто-нибудь с помощью rsync (именно rsync!) с такими серверами как ГуглДрайв или ЯндексДиск. Информацию (чтобы именно про rsync) искал, но не нашел, если кто подскажет или поделится опытом, буду благодарен.

 ,

LittleBin
()

Google Drive : Огромное количество файлов. Как скачать?

Форум — General

Получил на свой гуглодрайв огромное количество файлов в разных папках, общий объём десятки терабайт. Их нужно скачать порциями и перекинуть на внешние харды. Получалось ли у кого-нибудь скачивать с гуглодрайва с помощью wget или curl?

 , , , ,

LittleBin
()

Копирование многостраничного материала скриншотами?

Форум — General

"...скоро издательства перейдут на системы типа ReadCube, которые не позволят так легко выкачивать контент, как это можно сделать сейчас. ReadCube позволяет делать такие маразматичные вещи, как сдавать статью в аренду, например. 24 часа за шесть долларов. И главное — статьи нельзя будет скачивать. Точнее, скачать можно будет всё что угодно, но это будет технически намного сложнее..."

http://www.furfur.me/furfur/freedom/freedom/216751-sci-hub

Сказанное породило вопрос: а есть ли прога, которая может элегантно отскриншотить статью «сданную в аренду»?

 ,

LittleBin
()

Есть ли «консольный Scan Tailor»? Чтоб делал ч-б по порогу пакетом?

Форум — General

subj.

 , , ,

LittleBin
()

Рекурсивная замена пробелов (и пр.) в именах файлов ?

Форум — General
for file in *; do mv "$file" `echo $file | sed 's/[^.[:alnum:]]/_/g' | awk '{ print tolower($0) }'`; done

Как это сделать рекурсивно по всему /media/me/hard/ ?

 , ,

LittleBin
()

Часто используемые в bash-скриптах переменные отдельным файлом?

Форум — General

При написании скриптов я часто начинаю с перечисления одних и тех же простых переменных, типа abc=«123». Как мне сделать, чтобы в одном файле были перечислены все используемые переменные, а в каждом новом bash-скрипте указывать "переменные бери из файла vars"?

 , ,

LittleBin
()

rsync -rthpq : потеря сим. ссылок и прав/исполняемости скриптов

Форум — General

Обычно делал синхронизацию/бэкап дом. раздела так:

rsync -rthpq --delete /home/ /где-примонтирован-диск/home/

А восстановив с копии некоторую часть, заметил, что во-первых, нет сим. ссылок, и во-вторых, не работают скрипты («Нет доступа»). Проблемы со ссылками и скриптами решил, но не понял, что делал не так. Подскажите, пож., как делать синхронизацию с помощью rsync, чтобы всё сохранялось и всё восстанавливалось без потери прав и исполняемости.

 , , , ,

LittleBin
()

Поиск части текста не в строке, а через строки - как?

Форум — General
$ echo "Мой дядя самых честных правил,
> Когда не в шутку занемог,
> Он уважать себя заставил
> И лучше выдумать не мог." > uncle
$ egrep 'дядя.+правил' uncle
Мой дядя самых честных правил,
$

А как найти 'дядя.+заставил' ?

 , , ,

LittleBin
()

re.UNICODE : how to? (Python)

Форум — General

Цитата:

\w
If UNICODE is set, this will match anything other than [0-9_] plus characters classified as not alphanumeric in the Unicode character properties database.

Как установить этот параметр: UNICODE, импортируя модуль re?

PS: Если у вас под рукой ссылка на толковое руководство по анализу текста средствами Питона, поделитесь, пожалуйста.

 , ,

LittleBin
()

awk : print filename ?

Форум — General

Известно, что

egrep keyword *

в начале каждой строки с keyword покажет имя файла, из которого эта строка.

Есть причины, по которым я использую awk вместо egrep.
Но не знаю как сделать, чтобы awk так же выводил имя файла перед строкой с keyword.
Подскажите, пожалуйста.

 , ,

LittleBin
()

Порядковые номера в именах файлов

Форум — General

Есть много файлов. Часть из них имеет имена:

...
015701_что-то_еще_про_содержание_файла.расширение
015702_что-то_еще_про_содержание_файла.расширение
015703_что-то_еще_про_содержание_файла.расширение

А другая часть — с именами без порядковых номеров.
Технологически нужно, чтобы все остальные файлы приобрели имена:

015704_уже_данное_ранее_имя.расширение
015705_уже_данное_ранее_имя.расширение
015706_уже_данное_ранее_имя.расширение

и т.д. То есть к каждому имени спереди добавить порядковый номер, начиная с 015704.

Как это автоматизировать простейшим способом?

 ,

LittleBin
()

Как указать wget, что скачивать нужно только файлы у которых в имени есть сочетание букв prt ?

Форум — General

subj., pls

 ,

LittleBin
()

Обработка нумерованных файлов: с 1 по 15, а не с 10 по 15 и затем с 1 по 9 ?

Форум — General

Есть несколько файлов с именами a1 a2 a3 ... a15 и при любой конверсии обрабатываются сначала a10-a15, а затем a1-a9. Как задать последовательность обработки с 1-го по 15-й?

 ,

LittleBin
()

Удалить первую страницу у 1000 PDFов ?

Форум — General

как сделать subj. из командной строки?

не извлечь, а именно удалить! чтобы вся тысяча осталась как есть, но каждый - без первой страницы (с рекламой).

 , ,

LittleBin
()

RSS подписка на новые темы