История изменений

Исправление www_linux_org_ru, 21.07.17 19:02 (текущая версия) :

parse кстати может быти и интересно для ПРАКТИЧЕСКОГО применения, несмотря на наркоманский синтаксис основной части языка (когда я читать о parse N лет назад в реболе, я просто не понял — по-моему, там оно ужасно было описано)

>> parse read http://linux.org.ru [collect [skip thru "<title>" keep to "</title>"]]
== ["LINUX.ORG.RU - Русская информация об ОС Linux"]

а как будет выглядеть парсер, приближенный к настоящему?

т.е.:

1. все от тега <script> до </script> надо пропустить

2. внутри кавычек должен быть другой контекст, т.е. должен нормально парситься код вида

<img src="picture1.jpg" alt="<title>">тут точно не тайтл<img src="picture2.jpg" alt="</title>">

<img src='picture1.jpg' alt='<title>'>и тут точно не тайтл<img src="picture2.jpg" alt="</title>">

короче: им хтмл таки можно парсить, или еще нет?

Исправление www_linux_org_ru, 21.07.17 19:01:

parse кстати может быти и интересно для ПРАКТИЧЕСКОГО применения (когда я читать о нем N лет назад в реболе, я просто не понял — по-моему, там оно ужасно было описано)

>> parse read http://linux.org.ru [collect [skip thru "<title>" keep to "</title>"]]
== ["LINUX.ORG.RU - Русская информация об ОС Linux"]

а как будет выглядеть парсер, приближенный к настоящему?

т.е.:

1. все от тега <script> до </script> надо пропустить

2. внутри кавычек должен быть другой контекст, т.е. должен нормально парситься код вида

<img src="picture1.jpg" alt="<title>">тут точно не тайтл<img src="picture2.jpg" alt="</title>">

<img src='picture1.jpg' alt='<title>'>и тут точно не тайтл<img src="picture2.jpg" alt="</title>">

короче: им хтмл таки можно парсить, или еще нет?

Исправление www_linux_org_ru, 21.07.17 19:00:

parse кстати может быти и интересно (когда я читать о нем N лет назад в реболе, я просто не понял — по-моему, там оно ужасно было описано)

>> parse read http://linux.org.ru [collect [skip thru "<title>" keep to "</title>"]]
== ["LINUX.ORG.RU - Русская информация об ОС Linux"]

а как будет выглядеть парсер, приближенный к настоящему?

т.е.:

1. все от тега <script> до </script> надо пропустить

2. внутри кавычек должен быть другой контекст, т.е. должен нормально парситься код вида

<img src="picture1.jpg" alt="<title>">тут точно не тайтл<img src="picture2.jpg" alt="</title>">

<img src='picture1.jpg' alt='<title>'>и тут точно не тайтл<img src="picture2.jpg" alt="</title>">

короче: им хтмл таки можно парсить, или еще нет?

Исправление www_linux_org_ru, 21.07.17 18:59:

>> parse read http://linux.org.ru [collect [skip thru "<title>" keep to "</title>"]]
== ["LINUX.ORG.RU - Русская информация об ОС Linux"]

а как будет выглядеть парсер, приближенный к настоящему?

т.е.:

1. все от тега <script> до </script> надо пропустить

2. внутри кавычек должен быть другой контекст, т.е. должен нормально парситься код вида

<img src="picture1.jpg" alt="<title>">тут точно не тайтл<img src="picture2.jpg" alt="</title>">

короче: им хтмл таки можно парсить, или еще нет?

Исправление www_linux_org_ru, 21.07.17 18:59:

>> parse read http://linux.org.ru [collect [skip thru "<title>" keep to "</title>"]]
== ["LINUX.ORG.RU - Русская информация об ОС Linux"]

а как будет выглядеть парсер, приближенный к настоящему?

т.е.:

1. все от тега <script> до </script> надо пропустить

2. внутри кавычек должен быть другой контекст, т.е. должен нормально парситься код вида

<img src="picture1.jpg" alt="<title>">хе-хе<img src="picture2.jpg" alt="</title>">

короче: им хтмл таки можно парсить, или еще нет?

Исходная версия www_linux_org_ru, 21.07.17 18:58:

parse кстати может быти и интересно (когда я читать о нем N лет назад в реболе, я просто не понял — по-моему, там оно ужасно было написано)

>> parse read http://linux.org.ru [collect [skip thru "<title>" keep to "</title>"]]
== ["LINUX.ORG.RU - Русская информация об ОС Linux"]

а как будет выглядеть парсер, приближенный к настоящему?

т.е.:

1. все от тега <script> до </script> надо пропустить

2. внутри кавычек должен быть другой контекст, т.е. должен нормально парситься код вида

<img src="picture1.jpg" alt="<title>">хе-хе<img src="picture2.jpg" alt="</title>">

короче: им хтмл таки можно парсить, или еще нет?