LINUX.ORG.RU

История изменений

Исправление zzdnx, (текущая версия) :

Покажи уже свой полный конвеер что-ли...

На входе HTML от wget или cat, далее:

sed 's/.div.class..name.\{13\}\(.*\)..div..div.class..text../\nguest_name \1\n/g' | 
egrep "cltx...[1-9]|guest_music|guest_name|music_r" | 
sed 's/guest_music/<\/div>music_r0<div>\n<"/g;s/<div class="music_r\(.\)">/music_r\1/g' | 
sed -e :a -e 's/<[^>]*>//g;/</N;//ba;s/\&amp\;/\&/g;s/^[ \t]*//' | 
И только теперь awk.

Подозреваю что виновен последний sed, который удалят HTML-тэги, включая многострочные.

Исправление zzdnx, :

На входе HTML от wget или cat, далее:

sed 's/.div.class..name.\{13\}\(.*\)..div..div.class..text.>/\nguest_name \1\n/g' | 
egrep "cltx...[1-9]|class..name|guest_music|guest_name|music_r" | 
sed 's/guest_music/<\/div>music_r0<div>\n<"/g;s/<div class="music_r\(.\)">/music_r\1/g' | 
sed -e :a -e 's/<[^>]*>//g;/</N;//ba;s/\&amp\;/\&/g;s/^[ \t]*//'
И только теперь awk.

Исправление zzdnx, :

На входе HTML от wget или cat, далее:

sed 's/.div.class..name.\{13\}\(.*\)..div..div.class..text.>/\nguest_name \1\n/g' | egrep "cltx...[1-9]|class..name|guest_music|guest_name|music_r" | 
sed 's/guest_music/<\/div>music_r0<div>\n<"/g;s/<div class="music_r\(.\)">/music_r\1/g' | 
sed -e :a -e 's/<[^>]*>//g;/</N;//ba;s/\&amp\;/\&/g;s/^[ \t]*//'
И только теперь awk.

Исходная версия zzdnx, :

полный конвеер

На входе HTML от wget или cat, далее:

sed 's/.div.class..name.\{13\}\(.*\)..div..div.class..text.>/\nguest_name \1\n/g' | egrep "cltx...[1-9]|class..name|guest_music|guest_name|music_r" | sed 's/guest_music/<\/div>music_r0<div>\n<"/g;s/<div class="music_r\(.\)">/music_r\1/g' | sed -e :a -e 's/<[^>]*>//g;/</N;//ba;s/\&amp\;/\&/g;s/^[ \t]*//'
И только теперь awk.