История изменений
Исправление www_linux_org_ru, (текущая версия) :
parse кстати может быти и интересно для ПРАКТИЧЕСКОГО применения, несмотря на наркоманский синтаксис основной части языка (когда я читать о parse N лет назад в реболе, я просто не понял — по-моему, там оно ужасно было описано)
>> parse read http://linux.org.ru [collect [skip thru "<title>" keep to "</title>"]] == ["LINUX.ORG.RU - Русская информация об ОС Linux"]
а как будет выглядеть парсер, приближенный к настоящему?
т.е.:
1. все от тега <script> до </script> надо пропустить
2. внутри кавычек должен быть другой контекст, т.е. должен нормально парситься код вида
<img src="picture1.jpg" alt="<title>">тут точно не тайтл<img src="picture2.jpg" alt="</title>">
<img src='picture1.jpg' alt='<title>'>и тут точно не тайтл<img src="picture2.jpg" alt="</title>">
короче: им хтмл таки можно парсить, или еще нет?
Исправление www_linux_org_ru, :
parse кстати может быти и интересно для ПРАКТИЧЕСКОГО применения (когда я читать о нем N лет назад в реболе, я просто не понял — по-моему, там оно ужасно было описано)
>> parse read http://linux.org.ru [collect [skip thru "<title>" keep to "</title>"]] == ["LINUX.ORG.RU - Русская информация об ОС Linux"]
а как будет выглядеть парсер, приближенный к настоящему?
т.е.:
1. все от тега <script> до </script> надо пропустить
2. внутри кавычек должен быть другой контекст, т.е. должен нормально парситься код вида
<img src="picture1.jpg" alt="<title>">тут точно не тайтл<img src="picture2.jpg" alt="</title>">
<img src='picture1.jpg' alt='<title>'>и тут точно не тайтл<img src="picture2.jpg" alt="</title>">
короче: им хтмл таки можно парсить, или еще нет?
Исправление www_linux_org_ru, :
parse кстати может быти и интересно (когда я читать о нем N лет назад в реболе, я просто не понял — по-моему, там оно ужасно было описано)
>> parse read http://linux.org.ru [collect [skip thru "<title>" keep to "</title>"]] == ["LINUX.ORG.RU - Русская информация об ОС Linux"]
а как будет выглядеть парсер, приближенный к настоящему?
т.е.:
1. все от тега <script> до </script> надо пропустить
2. внутри кавычек должен быть другой контекст, т.е. должен нормально парситься код вида
<img src="picture1.jpg" alt="<title>">тут точно не тайтл<img src="picture2.jpg" alt="</title>">
<img src='picture1.jpg' alt='<title>'>и тут точно не тайтл<img src="picture2.jpg" alt="</title>">
короче: им хтмл таки можно парсить, или еще нет?
Исправление www_linux_org_ru, :
parse кстати может быти и интересно (когда я читать о нем N лет назад в реболе, я просто не понял — по-моему, там оно ужасно было описано)
>> parse read http://linux.org.ru [collect [skip thru "<title>" keep to "</title>"]] == ["LINUX.ORG.RU - Русская информация об ОС Linux"]
а как будет выглядеть парсер, приближенный к настоящему?
т.е.:
1. все от тега <script> до </script> надо пропустить
2. внутри кавычек должен быть другой контекст, т.е. должен нормально парситься код вида
<img src="picture1.jpg" alt="<title>">тут точно не тайтл<img src="picture2.jpg" alt="</title>">
короче: им хтмл таки можно парсить, или еще нет?
Исправление www_linux_org_ru, :
parse кстати может быти и интересно (когда я читать о нем N лет назад в реболе, я просто не понял — по-моему, там оно ужасно было описано)
>> parse read http://linux.org.ru [collect [skip thru "<title>" keep to "</title>"]] == ["LINUX.ORG.RU - Русская информация об ОС Linux"]
а как будет выглядеть парсер, приближенный к настоящему?
т.е.:
1. все от тега <script> до </script> надо пропустить
2. внутри кавычек должен быть другой контекст, т.е. должен нормально парситься код вида
<img src="picture1.jpg" alt="<title>">хе-хе<img src="picture2.jpg" alt="</title>">
короче: им хтмл таки можно парсить, или еще нет?
Исходная версия www_linux_org_ru, :
parse кстати может быти и интересно (когда я читать о нем N лет назад в реболе, я просто не понял — по-моему, там оно ужасно было написано)
>> parse read http://linux.org.ru [collect [skip thru "<title>" keep to "</title>"]] == ["LINUX.ORG.RU - Русская информация об ОС Linux"]
а как будет выглядеть парсер, приближенный к настоящему?
т.е.:
1. все от тега <script> до </script> надо пропустить
2. внутри кавычек должен быть другой контекст, т.е. должен нормально парситься код вида
<img src="picture1.jpg" alt="<title>">хе-хе<img src="picture2.jpg" alt="</title>">
короче: им хтмл таки можно парсить, или еще нет?