Не совсем «ЯП», больше похоже на regexp, где вместо символов строк оперирует HTML-тегами, считая HTML-документ строкой, где символ - тег. У тега, соответственно, свойства, которые можно тырить в переменные. То есть, как и в regexp, вы описываете шаблон, который должен найтись.
Шаблон переплетён с кодом, который начинает выполняться, как только находятся соответствующие этому коду куски шаблона. В последней части шаблона обычно пишется такой код, выполнением которого подтверждают нахождение всего шаблона. Обычно кодом является присвоение содержимого атрибутов HTML-тегов каким-нибудь переменным.
Описание (англ.): http://ymap.dyndns.org/tagstractor.pdf
Собрать можно из исходников (с пом. CMake): http://ymap.dyndns.org/tagstractor-2011-12-22---00-34-40.tar.bz2
В коде есть ужоснах, но под linux и windows собирается. Появляется несколько консольных утилит: test, htmlparser, ttcodeparser, eparser. Первая объединяет в себе код всех остальных, соответственно все остальные нужны для тестов и вы после сборки можете их прибить.
Использовать так: взять откуда-нибудь html-страничку, написать tt-код, запустить «test» с параметрами <html> <ttcode>.
В каталоге ttcode приводится пара примеров на ttcode. Один из примеров вытаскивает список топиков с лора (со страницы вида www.linux.org.ru/forum/development/).
Обсуждение: peorg@jabber.org