Суть такая. Я скачиваю заглавную страничку русской Википедии wget'ом, а потом просматриваю командой links2 -g
. wget запускается со следующими параметрами: -q -E -H -k -p -np -t 3 -T 10 -P /tmp/dir
, где:
# -q: quit
# -E: Append .html to the file name if it is an HTML file but doesn't end in .html or similar
# -H: Download files from other hosts, too
# -k: convert Links
# -p: entire Website
# -np: Do not ever ascend to the parent directory when retrieving recursively
# -t: Retries
# -T: Full Timeout
# -P: Download Directory
?%97аглавна?%8F_?%81?%82?%80ани?%86а.html
Ну, конечно, имя файла корявое.
1. Как заставить wget давать нормальное имя моему html-файлу, который я скачиваю? Понятно, есть параметр -O
, но он когда скачиваешь один файл, а не рекурсивно.
2. Попутно обнаружил, что find
«не видит» этот файл. (допустим, командой find -iname "*.html"
. То есть для find
он как бы невидим. Как заставить find
находить файлы с такими корявыми именами? (просто интересно).
Локаль - LANG=en_US.UTF-8(если важно).