Не надо только шутить, что главное не регэкспами. Готовые библиотеки для парсинга мне тоже не подойдут (потому что их написал не я, а читать я не умею). Хотелось бы список документов, в которых этот HTML определяется формально. В смысле по-настоящему, со всеми дикими вариантами типа
<b><i>текст</b></i>
Тема, я понимаю, что большая, и что стандартов было много, и что стандарты не помогут, потому что в интернете tag soup, и что всё портит JavaScript и т.д.
Т.е. в идеале - вот полная грамматика, вот алгоритм для обработки грамматики (IELR?), то что напарсится обрабатывать при помощи такого-то механизма.