ruby: очистить текст от тегов

0

0

Есть текст замусоренный тегами вида <блабла>...</блабла>, не обязательно реально существующие HTML-ные, но такого же вида. Нужен универсальный способ очистить произвольный текст от этих тегов. Искать паттерны наподобие /<(.+?)>/ как-то некрасиво, придётся «пробегать» текст несколько раз чтобы вычистить вложенные теги. Как лучше такое сделать?

Ссылка

←	[low level] Разница между сегментной и страничной организацией памяти

[СИ] Длина сектора диска

→

html = "<html><head><title>Test title</title></head><body><h1>Test</h1></body></html>"
html.gsub!(/<[a-zA-Z\/][^>]*>/,"")
puts html

Чем вам не нравится регексп?

edigaryev ★★★★★
(09.05.10 23:42:50 MSD)

Ответ на: комментарий от edigaryev 09.05.10 23:42:50 MSD

Если там есть атрибуты, то будут пробелы и кавычки, и, возможно, экранированные символы. Уверен, что твоего варианта хватит? :}

Deleted
(10.05.10 01:22:54 MSD)

Ссылка

Ответ на: комментарий от edigaryev 09.05.10 23:42:50 MSD

Собственно всем нравится, спасибо. :) Просто изначальная идея с поиском пар тегов сбила с толку.

tx ★
(10.05.10 01:49:46 MSD) автор топика

Ответ на: комментарий от tx 10.05.10 01:49:46 MSD

Чуть допилил, а то оно возбуждалось на одиночную угловую скобку и не убирало кое-что другое:

gsub!(/(<[a-zA-Z\/\#][^>]*>)?/,"")

tx ★
(10.05.10 02:10:00 MSD) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	[low level] Разница между сегментной и страничной организацией памяти

Development

[СИ] Длина сектора диска

→

Похожие темы