Сообщения LittleBin

Скачать сканы в обход хитрого вьюера с зумифаем

Форум — General

Получил задание выкачать эти сканы, но не сумел найти выхода на картинки с высоким разрешением. Подскажите, пожалуйста, если сталкивались с таким:

https://web.nli.org.il/sites/NLI/English/digitallibrary/pages/viewer.aspx?&presentorid=MANUSCRIPTS&docid=PNX_MANUSCRIPTS000086226-1

—

download, images, viewer

LittleBin
(08.04.20 12:32:44 MSK)

5 комментариев

Скачать сканы книги в обход вьюера (кеширующего нарезку сканов)

Форум — General

Не могли бы вы помочь скачать эту книгу? --

http://www.bl.uk/manuscripts/Viewer.aspx?ref=harley_ms_5786_fs001v

Обычно в подобных случаях я смотрю адреса кешированных картинок, но в этом случае я в кеше вижу нарезку страниц квадратами. Не знаю, как заполучить линки, ведущие на сканы страниц.

download

LittleBin
(15.02.17 19:48:12 MSK)

8 комментариев

Автоматизированно сохранить картинки с web-страницы

Форум — General

На этой странице размещено 45 картинок (диафильм) — предупреждение: при загрузке страницы браузер может притормозить на 2-3 секунды --

https://ria.ru/society/20170104/1485150302.html

Мне нужно было их скачать, и я с удивлением обнаружил, что не могу этого сделать никаким способом, кроме как вручную. Вручную я их одну за другой сохранил.

Но м.б. кто-то подскажет, как можно в подобных случаях сохранить автоматизированно, в bash'e?

URL картинок, кажется, постоянные, но в html-коде страницы их нет. Обычные приемы с curl | grep споткнулись об это.

download, pic

LittleBin
(05.01.17 00:10:29 MSK)

11 комментариев

Скрипт pdfocr на Ruby : извлечь команду соединения картинки и текста из кода?

Форум — General

В скрипте pdfocr на Руби есть две проблемы: (1) у распознанного pdf’a размер безумно больше, чем у входящего; (2) нет опции соединения языков для tesseract, вроде rus+eng. В связи с этим его использование затруднено, и хочется сделать всё то же, что делает он, но самому и полноценно. Основной вопрос:

Какой командой можно объединить в pdf распознаваемую скан-картинку и текстовый файл-вывод tesseract так, чтобы в объединенном pdf’e собственно текст накладывался на текст картинки, и его можно было выделять и копировать?

Знатоки Руби, помогите, пожалуйста, извлечь понимание этого момента из кода скрипта. Код скрипта: https://github.com/gkovacs/pdfocr

ruby

LittleBin
(28.07.16 14:28:43 MSK)

Скачать фильм с Youtube (youtube-dl, FlashGot, savefrom.net не сработали)

Форум — General

Как скачать этот фильм? https://www.youtube.com/watch?v=yZfe6QUJihw

Обычно применяемые способы скачивания, т.е. youtube-dl и FlashGot, а также savefrom.net не сработали.

download, youtube

LittleBin
(06.07.16 17:28:54 MSK)

28 комментариев

Научите скачивать книги в обход онлайнового вьюера

Форум — General

http://elib.lib.rsuh.ru/elib/000009797

download

LittleBin
(08.05.16 11:24:10 MSK)

11 комментариев

Синхронизация данных с rsync (именно rsync) на бесплатный сервер

Форум — General

Считаю, что все программы-клиенты – бэкдоры, устал от них, удалил все и хочу настроить классическую синхронизацию данных на сервер и обратно с помощью rsync. Но у меня нет своего сервера. Поэтому вопрос, работает ли кто-нибудь с помощью rsync (именно rsync!) с такими серверами как ГуглДрайв или ЯндексДиск. Информацию (чтобы именно про rsync) искал, но не нашел, если кто подскажет или поделится опытом, буду благодарен.

rsync, синхронизация

LittleBin
(22.04.16 20:57:29 MSK)

5 комментариев

Google Drive : Огромное количество файлов. Как скачать?

Форум — General

Получил на свой гуглодрайв огромное количество файлов в разных папках, общий объём десятки терабайт. Их нужно скачать порциями и перекинуть на внешние харды. Получалось ли у кого-нибудь скачивать с гуглодрайва с помощью wget или curl?

curl, download, files, google drive, wget

LittleBin
(12.03.16 15:24:46 MSK)

6 комментариев

Копирование многостраничного материала скриншотами?

Форум — General

"...скоро издательства перейдут на системы типа ReadCube, которые не позволят так легко выкачивать контент, как это можно сделать сейчас. ReadCube позволяет делать такие маразматичные вещи, как сдавать статью в аренду, например. 24 часа за шесть долларов. И главное — статьи нельзя будет скачивать. Точнее, скачать можно будет всё что угодно, но это будет технически намного сложнее..."

http://www.furfur.me/furfur/freedom/freedom/216751-sci-hub

Сказанное породило вопрос: а есть ли прога, которая может элегантно отскриншотить статью «сданную в аренду»?

LittleBin
(03.03.16 22:17:19 MSK)

22 комментария

Есть ли «консольный Scan Tailor»? Чтоб делал ч-б по порогу пакетом?

Форум — General

subj.

black, images, scan, white

LittleBin
(17.02.16 22:48:28 MSK)

4 комментария

Рекурсивная замена пробелов (и пр.) в именах файлов ?

Форум — General

for file in *; do mv "$file" `echo $file | sed 's/[^.[:alnum:]]/_/g' | awk '{ print tolower($0) }'`; done

Как это сделать рекурсивно по всему /media/me/hard/ ?

filename, rename, sed

LittleBin
(24.11.15 13:49:38 MSK)

34 комментария

Часто используемые в bash-скриптах переменные отдельным файлом?

Форум — General

При написании скриптов я часто начинаю с перечисления одних и тех же простых переменных, типа abc=«123». Как мне сделать, чтобы в одном файле были перечислены все используемые переменные, а в каждом новом bash-скрипте указывать "переменные бери из файла vars"?

bash, script, variables

LittleBin
(31.10.15 13:03:46 MSK)

6 комментариев

rsync -rthpq : потеря сим. ссылок и прав/исполняемости скриптов

Форум — General

Обычно делал синхронизацию/бэкап дом. раздела так:

rsync -rthpq --delete /home/ /где-примонтирован-диск/home/

А восстановив с копии некоторую часть, заметил, что во-первых, нет сим. ссылок, и во-вторых, не работают скрипты («Нет доступа»). Проблемы со ссылками и скриптами решил, но не понял, что делал не так. Подскажите, пож., как делать синхронизацию с помощью rsync, чтобы всё сохранялось и всё восстанавливалось без потери прав и исполняемости.

backup, rsync, script, symbolic link, права

LittleBin
(26.10.15 14:05:23 MSK)

2 комментария

Поиск части текста не в строке, а через строки - как?

Форум — General

$ echo "Мой дядя самых честных правил,
> Когда не в шутку занемог,
> Он уважать себя заставил
> И лучше выдумать не мог." > uncle
$ egrep 'дядя.+правил' uncle
Мой дядя самых честных правил,
$

А как найти 'дядя.+заставил' ?

grep, text, поиск, строки

LittleBin
(19.10.15 00:40:21 MSK)

4 комментария

re.UNICODE : how to? (Python)

Форум — General

Цитата:

\w
If UNICODE is set, this will match anything other than [0-9_] plus characters classified as not alphanumeric in the Unicode character properties database.

Как установить этот параметр: UNICODE, импортируя модуль re?

PS: Если у вас под рукой ссылка на толковое руководство по анализу текста средствами Питона, поделитесь, пожалуйста.

python, regexp, unicode

LittleBin
(18.10.15 12:48:16 MSK)

3 комментария

awk : print filename ?

Форум — General

Известно, что

egrep keyword *

в начале каждой строки с keyword покажет имя файла, из которого эта строка.

Есть причины, по которым я использую awk вместо egrep.
Но не знаю как сделать, чтобы awk так же выводил имя файла перед строкой с keyword.
Подскажите, пожалуйста.

awk, filename, поиск

LittleBin
(08.10.15 15:24:15 MSK)

2 комментария

Порядковые номера в именах файлов

Форум — General

Есть много файлов. Часть из них имеет имена:

...
015701_что-то_еще_про_содержание_файла.расширение
015702_что-то_еще_про_содержание_файла.расширение
015703_что-то_еще_про_содержание_файла.расширение

А другая часть — с именами без порядковых номеров.
Технологически нужно, чтобы все остальные файлы приобрели имена:

015704_уже_данное_ранее_имя.расширение
015705_уже_данное_ранее_имя.расширение
015706_уже_данное_ранее_имя.расширение

и т.д. То есть к каждому имени спереди добавить порядковый номер, начиная с 015704.

Как это автоматизировать простейшим способом?

filename, цикл

LittleBin
(07.10.15 20:00:29 MSK)

10 комментариев

Как указать wget, что скачивать нужно только файлы у которых в имени есть сочетание букв prt ?

Форум — General

subj., pls

filename, wget

LittleBin
(29.09.15 09:14:46 MSK)

2 комментария

Обработка нумерованных файлов: с 1 по 15, а не с 10 по 15 и затем с 1 по 9 ?

Форум — General

Есть несколько файлов с именами a1 a2 a3 ... a15 и при любой конверсии обрабатываются сначала a10-a15, а затем a1-a9. Как задать последовательность обработки с 1-го по 15-й?

filename, listings

LittleBin
(05.09.15 12:28:02 MSK)

10 комментариев