Пилю скриптец для сграбливания картинок из галереи сайта на MediaWiki. Копирую нужный кусок исходников галереи (там тупо имя с пробелами и расширением) в текстовик. Потом пропускаю через пайп, конвертируя текст в ссылку. Ссылки выходят из пайпа, только как их wget-у скормить? Или я вообще идиот и wget умеет из файла ссылки брать?
UPD: тьфу, я забыл, что оно по пути ещё веб-страницу отдаёт, а там уже прямые ссылки с кашей. Чем парсить HTML? Когда-то пробовал регулярками на sed и perl, вышло черезжопно. Для того же Perl в репах куча модулей для работы с HTML есть, какой для данной задачи лучше подходит?