Подскажите тулзы для парсинга сайтов и для закачни страниц (только html), используя переходные ссылки ПО МАСКЕ (регекспу). Мне не удалось заставь (teleport pro, wget, httrack (сhttrack, ghttrack, khttrack), pavuk, gtm, kwebget, scrapbook, Heritrix, gwget2) переходить на следующую ссылку (И ТОЛЬКО НА НЕЁ, но они все ломятся на все ссылки на странице, кроме внешних, даже если иное указанно в настройках), соответствующую шаблону, скачивать и сохранять страницу, переходить на следующую, [рекурсия]. Смысл: есть станица, на которой есть ссылка «далее». Необходимо скачать и сохранить эту страницу (чистый html), потом перейти по ссылке «далее», скачать следующую страницу, найти «далее» и перейти. Рекурсия.
Также возможны страницы с «1,2,3,4....», причем ссылка страницы после «4», отображается только после перехода на 4-ую страницу.
Wget+писать самому скрипт не предлагать, уже пробовал. Делать очень муторно, поскольку надо делать под каждый конкретный сайт. Цель: закачка материала сайтов на хард с целью бекапа и быстрого поиска с отсеиванием.
В некоторых случаях также надо сохранять картинки по регекспу, но, думаю, это уже можно делать и потом, пройдясь grep, sed и другими тулзами по сохраненным html-файлам.