LINUX.ORG.RU

Регулярное выражение для получения со страницы ссылки и текста ссылки


0

0

Вообщем нужно регулярное выражение с помощью которого можно вытащить ссылку, которая в href и текст ссылки, сам помозговал и дошел вот до такого варианта
<[aA][^<>]*?href=['"]?([^<>]*?)['"]?(?:\s[^<>]*?)?>([^<>]*?)</[aA]>
но это выражение неидеально - некоторые вещи пропускает
может кто подскажет как подкорректировать чтобы получить рег. выражение, которое в лбом случае получит и текст и ссылку.
http://jakarta.apache.org/regexp/applet.html - тут можно тестировать свои регекспы.

anonymous

\shref=['"]?(.*?)['"]?\s

подойдет?

vilfred ☆☆
()

<a.*?href="(.*?)".*?>(.*?)</a>

anonymous
()

Лучше использовать какой-либо парсер html, так как данная конструкция (<a href=...) может легко быть размазанной по нескольким строкам.

sdio ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.