Строка
<th class=«tableright»>& pound;1.95& nbsp;& nbsp;& nbsp;& nbsp;& nbsp;</th> <th class=«tableright»>& pound;2.95& nbsp;& nbsp;</th>
Как убрать все, кроме 1.95?
у меня
elif 'th' in line and line.islower():
d[alpha].append(re.sub('\s*<.*?>\D*\s*','', line))
получается (см. после MANGO), то есть в аналогичных строках (например, <th class=«tableright»>& pound;5.95</th>) текст удаляется,а цифры остаются,как видно ниже.
'GREAT ESCAPE', '3.95', 'MELON REFRESHER', '3.95', 'MIXED', '5.95', 'MANGO', '1.95 2.95 ', 'LYCHEE', '1.95 2.95 '