Хочу написать программу для автоматической обработки локального зеркала одного сайта. Программа имеет такие подзадачи:
- поиск файлов по регекспам в поддереве директории, получение их списка
(если бы стояла только эта задача, я бы набил однострочник в консоли и все) - некоторые из этих файлов - html, и их надо обрабатывать - типа, находить ссылки, проверять соответствие адреса критериям, выдрать текст до переноса строки/следующей ссылки и т. п.
(если бы стояла задача просто сделать такое с отдельно взятым файлом, я бы решил ее джаваскриптом) - взаимодействие с БД (MySQL)
(тут я знаком только с php'шными mysqli и dbo)
И мне надо реализовать это в одной программе, а не в наборе костылей, требующих запускать отдельные шеллскрипты/вебсервер/браузер. Многократно используемой притом.
Подскажите библиотеки, позволяющие это реализовать это на каком-нибудь из наиболее распространенных языков - сгодятся C/C++, можно Python, желательно не Java.
ЗЫ Наиболее сложная подзадача - разбор гипертекста. Подозреваю, что удобнее JavaScript с его DOM для этого ничего нет. Есть ли какой-то внебраузерный движок, который можно было бы дергать из основной программы, скармливать ему скрипты со страницами и забирать обратно результат?