Сайт представляет собой коллекцию ссылок на статьи (расположеные на других сайтах). Т.е. необходимо сначала сделаль зеркало самого сайта а затем каждой ссылки за пределами. выходит за пределы адреса нужно только один раз. Реально ли это wget'ом ил может чем то ещё.
В принципе там должен получиться примерно гигабайт информации (или меньше).