Как можно вырезать текст

0

2

Есть код вида

<div class="user-summary__about" itemprop="рандомный текст">
        рандомный текст      </div>

И мне нужно как-то достать из 2 строчки этот рандомный текст

Я это решил таким образом. Грепнул текст который оканчивается на </div>$, и дальше чистил оставшийся мусор. Но мне кажется такое себе решение.

Может как-то можно по интереснее это придумать?

К примеру что бы grep забирал еще 2 строчку после найденной строки . Или вырезание текста к примеру

 от <div class="user-summary__about" itemprop="рандомный текст"> до </div>

←	IPv6 VPN? Туннелинг?

→

то бы grep забирал еще 2 строчку после найденной строки

grep 'что-то' -A1 где

man grep

kostik87 ★★★★★
(17.06.22 15:08:30 MSK)

awk '/рандомный текст/{print $1, $2, $3}' file

Clockwork ★★★★★
(17.06.22 15:48:28 MSK)

Тексты разные бывают?

python + lxml

Zhbert ★★★★★
(17.06.22 16:55:47 MSK)

import requests
import re
r = requests.get(u)
print(re.findall(r'<div class="user-summary__about"[^>]*>([\s\S]+?)</div>', r.text))

~~tz4678_2~~
(17.06.22 17:38:59 MSK)

Это ж микроразметка. Так и гугли schema.org parser для нужного тебе языка.

Tigger ★★★★★
(17.06.22 18:34:20 MSK)

Лучше возьми нормальный парсер html

MrClon ★★★★★
(17.06.22 18:48:20 MSK)

Ответ на: комментарий от Clockwork 17.06.22 15:48:28 MSK

Прочитал по диагонали, это только выхлоп.

Для удаления нужно создать пустую таблицу, в которую складывать куски. У меня был скрипт на флуа, который и парсил и удалял.

Clockwork ★★★★★
(17.06.22 19:28:04 MSK)

Рекомендую использовать lua, в ней такие штуки в делаются на раз-два.

s = [[твоя строка]] --далее что-то в духе
m1, m2 = s:match([[<div class="user-summary__about" itemprop="(.-)".->(.-)</div>]])

более того можно пройти по всем совпадениям с помощью gmatch.

AKonia ★★★
(17.06.22 20:13:52 MSK)
Последнее исправление: AKonia 17.06.22 20:18:11 MSK (всего исправлений: 2)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	IPv6 VPN? Туннелинг?

→

Похожие темы