На некоторых вебсайтах ссылки на скачивание файлов имеют вид
http://website.com/index.php?section=12&page=322&attach=28
а имя файла можно получить, например, вызвав HTTP-заголовок командой
curl -I "http://website.com/index.php?section=12&page=322&attach=28".
Чтобы массово скачать файлы с такого сайта, я ищу в заголовке grep-ом строку вида
filename="file216.doc"
и вырезаю имя sed-ом. При этом в конце имени оказывается символ конца строки.
Как вырезать имя файла без символа конца строки?
Если посоветуете сменить curl на wget, объясните, пожалуйста, как в нём подставлять куки, подменять юзер-агент и игнорировать robots.txt без правки ~/.wgetrc ?
Заранее спасибо.
Ответ на:
комментарий
от AlexVB
Ответ на:
комментарий
от linuks
Ответ на:
комментарий
от AlexVB
Ответ на:
комментарий
от linuks
Ответ на:
комментарий
от question4
Ответ на:
комментарий
от linuks
Ответ на:
комментарий
от question4
Ответ на:
комментарий
от linuks
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум Curl + grep (2021)
- Форум grep -i (2011)
- Форум [ sed ? awk ? grep ?] (2007)
- Форум Заголовки HTTP (2015)
- Форум wget -i `curl` (2010)
- Форум curl -I <URL> (2007)
- Форум заменить sed + grep на sed only (2012)
- Форум sed,grep извлечь домены (2016)
- Форум Утилиты grep, sed, awk (2018)
- Форум grep -i медленно работает (2011)