html href parsing

0

1

Подскажите пожалуйста, что такое и как называется все то, что идет после двоеточия
И как это вытащить при помощи find_all() библиотеки BeautifulSoup


<a class="class_name" href="#link-jump">Text</a> :&nbsp;&nbsp;<b>1</b>

Ссылка

←	copy_to_user из прерывания

Как защитить код на JS?

→

Называется html entities, иногда html special chars.

Если нужно преобразовать их в текст, у bs есть для этого параметр convertEntities (документация).

from BeautifulSoup import BeautifulStoneSoup
BeautifulStoneSoup("Sacr&eacute; bl&#101;u!", 
                   convertEntities=BeautifulStoneSoup.HTML_ENTITIES).contents[0]
# u'Sacr\xe9 bleu!'

Как вытащить средствами bs не подскажу, но в совсем крайнем случае можно обойтись регулярными выражениями.

grazor ★★
(03.09.16 15:36:45 MSK)

В смысле :  1. 1 это сестринский (sibling) элемент <a>. :   либо просто часть содержимого элемента родительского для <a> и , либо может быть представлено как ещё один сестринский элемент. Не помню уже как оно там в BeautifulSoup, давно его курил. На сколько помню по стандарту этот кусок текста должен быть обёрнут виртуальным инлайновым (или не инлайновым) элементом (не отображающимся в DOM). Но эти тонкости я курил ещё более давно и совсем поверхностно, так-что ты мне не верь.

MrClon ★★★★★
(03.09.16 15:38:15 MSK)

Ответ на: комментарий от MrClon 03.09.16 15:38:15 MSK

Все это действительно завернуто под

pulya
(03.09.16 15:43:20 MSK) автор топика

Ссылка

Ответ на: комментарий от grazor 03.09.16 15:36:45 MSK

но в совсем крайнем случае можно обойтись регулярными выражениями.

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml...

anonymous
(03.09.16 17:13:23 MSK)

Ссылка

У меня тоже было что-то наподобие, а я юзал HTMLParser(из коробки который) и он такое не мог переварить... А вот с bs4 отлично получилось, а как уже не помню :-(
Покури доки какие-нибудь. Даже на русском не плохие есть...
p.s. смотри на элемент что выше <a>

~~FIL~~ ★★★★
(03.09.16 17:23:27 MSK)
Последнее исправление: FIL 03.09.16 17:25:40 MSK (всего исправлений: 2)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	copy_to_user из прерывания

Development

Как защитить код на JS?

→

Похожие темы