Есть задание: Написать сценарий для sed и awk для удаления тегов и комментариев HTML. Теги и комментарии могут быть многострочными. Обеспечить правильную подстановку для знаков <, >, & и ". В общем нужно убрать теги и комменты вокруг текста, а сам текст оставить. Из такого:
<!-- commentary -->
<html><head><meta http-equiv="Content-Type" content="text/html; charset=KOI8-R">
<title>hello</title>
<link rel="stylesheet" crossorigin="anonymous" href="./hello_files/main.css"><style type="text/css">
<body>
<center>
<b>
Text1
</b>
</center>
<br>
Text2
<br>
<br>
Text3
<input type="text" name="field1" value="" size="32" maxlength="64">
<input type="submit" value="Start">
<input type="reset" value="Clear">
</form>
<hr>
</body></html>
Должно получиться такое:
commentary
hello
Text1
Text2
Text3
Написал пока что только такой код, но он удаляет только теги:
sed -n '1h;2~1H;${g;s/<[^>]*>//g;p}' test.html >htmlres.txt
Как написать чтобы еще удалялись комментарии? А так же как написать это на awk'e?