[bash] помогите с регэкспом

0

2

привет, all! нужна твоя помощь.

дано: <td>23:00</td><td>Взгляд изнутри. <a href=«index.php?id=159&anons=8386» style=«font-size:x-small;»>[подробнее]</a>

надо получить: name='Взгляд изнутри' и url=«index.php?id=159&anons=8386»
как это сделать без извращений вида grep -oE '<td>.*<a' и т.п.?

Ссылка

←	[Python] Получение ответа веб сервера.

std::shared_ptr с методом-делитером

→

как это сделать без извращений вида grep -oE '<td>.*<a' и т.п.?

Парсить xml регулярными выражениями — это уже извращение.

gentoo_root ★★★★★
(26.02.12 20:38:12 MSK)

Ответ на: комментарий от gentoo_root 26.02.12 20:38:12 MSK

|grep -oE '><td>.*<a' | sed 's/<//g;s/>//g;s/a//g;s/td//g'

ну это же вообще пичалька

~~snoopcat~~ ★★★★★
(26.02.12 20:40:09 MSK) автор топика

Ответ на: комментарий от snoopcat 26.02.12 20:40:09 MSK

и это тоже

|grep -oE '".*" ' | sed 's/"//g'

есть получше варианты?

~~snoopcat~~ ★★★★★
(26.02.12 20:42:19 MSK) автор топика

Ссылка

Сколько уже говорили про парсинг КС-грамматик конечным автоматом, а все равно находятся умники, занимающиеся этим.

encyrtid ★★★★★
(26.02.12 20:44:05 MSK)

без извращений вида

а ну тебе регэкспы кажутся извращением? без извращений — бери парсер dom

anonymous
(26.02.12 20:51:08 MSK)

's/<td>.*<td>\(.*\)<a href=«\([^»]*\)".*/name=«\1» и url=«\2»/'

schizoid ★★★
(26.02.12 20:58:15 MSK)

Ответ на: комментарий от anonymous 26.02.12 20:51:08 MSK

бери парсер dom

прямо таки dom?

anonymous
(26.02.12 21:00:41 MSK)

Ссылка

$ echo '<td>23:00</td><td>Взгляд изнутри. <a href="index.php?id=159&anons=8386" style="font-size:x-small;">[подробнее]</a>' \
> |grep -Eo '<td>[^<]+<a href="[^"]+"' |sed -r 's/<td>([^<]+)<a href="([^"]+)"/name=\1 url=\2/g'
name=Взгляд изнутри.  url=index.php?id=159&anons=8386

а так как ты хочешь даже с pcregrep не сделать

anonymous
(26.02.12 21:01:32 MSK)

Ответ на: комментарий от schizoid 26.02.12 20:58:15 MSK

не сработает, тк в тексте могут попастся переносы

anonymous
(26.02.12 21:03:12 MSK)

Ответ на: комментарий от anonymous 26.02.12 21:01:32 MSK

да ладно?
grep -oE '><td>.*<a' | sed 's/<//g;s/>//g;s/a//g;s/td//g'
и
grep -oE '".*" ' | sed 's/«//g'

работают

~~snoopcat~~ ★★★★★
(26.02.12 21:03:15 MSK) автор топика

Ответ на: комментарий от snoopcat 26.02.12 20:40:09 MSK

ну это же вообще пичалька

Вот так можно:

| sed -r 's/<td>(.*)<a/\1/'

gentoo_root ★★★★★
(26.02.12 21:03:23 MSK)

Ответ на: комментарий от gentoo_root 26.02.12 21:03:23 MSK

не, нельзя
вот что получается-
23:00</td><td>Взгляд изнутри. href=«index.php?id=159&anons=8386» style=«font-size:x-small;»>[подробнее]</a>

~~snoopcat~~ ★★★★★
(26.02.12 21:04:13 MSK) автор топика

tidy + xmlstarlet

phoenix ★★★★
(26.02.12 21:04:22 MSK)

Ссылка

Ответ на: комментарий от gentoo_root 26.02.12 21:03:23 MSK

А, уже и до меня 2 раза это написали…

gentoo_root ★★★★★
(26.02.12 21:05:48 MSK)

Ссылка

Ответ на: комментарий от snoopcat 26.02.12 21:03:15 MSK

и что ты этим хотел сказать? твой быдлокод не делает того, что в моём посте

anonymous
(26.02.12 21:07:22 MSK)

Ссылка

Ответ на: комментарий от snoopcat 26.02.12 21:04:13 MSK

вот что получается-

У меня кривое выражение. Вот так уже:

sed -r 's@.*/td><td>(.*)<a.*@\1@'

У анонимуса лучше, кстати, только можно обойтись без grep (и я чуть-чуть его отредактировал):

sed -r 's/.*<td>([^<]+)<a href="?([^ «]+).*/name=\1 url=\2/g'

Но для начала, конечно, надо всё в одну строку записать. Например, «tr -d '\n'».

gentoo_root ★★★★★
(26.02.12 21:11:34 MSK)

Ссылка

Ответ на: комментарий от schizoid 26.02.12 20:58:15 MSK

ах, да: это не сработает потому, что высрет остальное содержимое страницы

anonymous
(26.02.12 21:14:50 MSK)

Ссылка

всем спасибо, УМВР:

ftpuser@vps:~$ sh tvprog
Канал СТС
22:20: Шоу "Уральских пельменей". "Падал прошлогодний смех".
23:50: "Обнаженное оружие".
Канал ТНТ
21:35: "Комеди Клаб". Лучшее.
22:00: "Дом-2. Город любви".
23:00: "Дом-2. После заката".
23:30: "Однажды в Америке".
Канал 10 канал (Ren TV)
23:30: Что происходит?
Канал National Geographic Channel
21:00: Взгляд изнутри.
22:00: С точки зрения науки.
23:00: Взгляд изнутри.

~~snoopcat~~ ★★★★★
(26.02.12 21:24:31 MSK) автор топика

Ссылка

python + lxml + xpath (например)

или html->xhtml конвертер + xmlstarlet

anonymous
(26.02.12 21:33:45 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.02.12 21:03:12 MSK

anonymous
не сработает, тк в тексте могут попастся переносы

убери переносы. Они ведь эквивалентны пробелу?

~~drBatty~~ ★★
(27.02.12 00:38:38 MSK)

Ссылка

Ответ на: комментарий от encyrtid 26.02.12 20:44:05 MSK

encyrtid
Сколько уже говорили про парсинг КС-грамматик конечным автоматом, а все равно находятся умники, занимающиеся этим.

дык работает же!

~~drBatty~~ ★★
(27.02.12 00:39:42 MSK)

Ссылка

Ответ на: комментарий от encyrtid 26.02.12 20:44:05 MSK

Сколько говорили о том, что sed тьюринг-фул, а всё равно приходят умники и говорят про невозможность парсинга КС-грамматик конечным автоматом.

anonymous
(27.02.12 04:45:12 MSK)

($name, $url) = /.*/td><td>(.*?)<a href="(.*?)"/;
print "Mane = $name, url = $url\n";

Поздно наверное, но вот еще вариант. ^_^ Perl.

IceAlchemist
(27.02.12 10:21:41 MSK)

Ответ на: комментарий от IceAlchemist 27.02.12 10:21:41 MSK

Слеш забыл экранировать:

($name, $url) = /.*\/td><td>(.*?)<a href="(.*?)"/;
print "Mane = $name, url = $url\n";

IceAlchemist
(27.02.12 14:21:56 MSK)

Ссылка

Ответ на: комментарий от anonymous 27.02.12 04:45:12 MSK

sed != регулярные выражения. Улавливаешь?

encyrtid ★★★★★
(27.02.12 19:29:56 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	[Python] Получение ответа веб сервера.

Development

std::shared_ptr с методом-делитером

→

и это тоже

Похожие темы