Опробируйте самодельный «ЯП» для выдирания данных из HTML.

0

2

Не совсем «ЯП», больше похоже на regexp, где вместо символов строк оперирует HTML-тегами, считая HTML-документ строкой, где символ - тег. У тега, соответственно, свойства, которые можно тырить в переменные. То есть, как и в regexp, вы описываете шаблон, который должен найтись.

Шаблон переплетён с кодом, который начинает выполняться, как только находятся соответствующие этому коду куски шаблона. В последней части шаблона обычно пишется такой код, выполнением которого подтверждают нахождение всего шаблона. Обычно кодом является присвоение содержимого атрибутов HTML-тегов каким-нибудь переменным.

Описание (англ.): http://ymap.dyndns.org/tagstractor.pdf

Собрать можно из исходников (с пом. CMake): http://ymap.dyndns.org/tagstractor-2011-12-22---00-34-40.tar.bz2

В коде есть ужоснах, но под linux и windows собирается. Появляется несколько консольных утилит: test, htmlparser, ttcodeparser, eparser. Первая объединяет в себе код всех остальных, соответственно все остальные нужны для тестов и вы после сборки можете их прибить.

Использовать так: взять откуда-нибудь html-страничку, написать tt-код, запустить «test» с параметрами <html> <ttcode>.

В каталоге ttcode приводится пара примеров на ttcode. Один из примеров вытаскивает список топиков с лора (со страницы вида www.linux.org.ru/forum/development/).

Обсуждение: peorg@jabber.org

Ссылка

←	[python]Список допустимых видео-режимов

Какие есть форматы для разметки плейлистов/мультимедии?

→

Опять?

archimag ★★★
(22.12.11 01:58:43 MSK)

Ссылка

Где-то это уже было.

note173 ★★★★★
(22.12.11 01:59:36 MSK)

Ссылка

Буквы в пдф пляшут адско. http://d.pr/NYUm

Эта быдло-поделка никому не нужна.

tensai_cirno ★★★★★
(22.12.11 02:17:22 MSK)

Ссылка

Ого, не зря я сразу попкорном запасся, ждем продолжения!

buddhist ★★★★★
(22.12.11 02:35:50 MSK)

Ссылка

гармошка

wxw ★★★★★
(22.12.11 02:51:21 MSK)

Ссылка

Зачинай стартап, и - вперёд, к успеху!

~~OldFatMan~~ ☆
(22.12.11 02:52:43 MSK)

Ссылка

Всё-таки белая горячка. Я знал, я знал.

~~baverman~~ ★★★
(22.12.11 03:23:16 MSK)

Ссылка

Опробируйте
Опробируйте
Опробируйте

Grammar Nazi негодуэ!!!

Правильно - «апробуйте».

anonymous
(22.12.11 07:07:43 MSK)

Ссылка

несколько консольных утилит: test

$ whatis test
test (1)             - check file types and compare values

~~power~~ ★
(22.12.11 07:17:50 MSK)

Ссылка

Да ладно, что все накинулись, ТС просто пробует свои силы.

cattail ★
(22.12.11 07:19:26 MSK)

Ответ на: комментарий от cattail 22.12.11 07:19:26 MSK

Блжад какие силы, о чем ты?

Кунсткамера:

Потестируйте простой язык для выдирания данных из HTML-документов.
Существует ли специальный простой язык разработки веб-роботов?
Кто интересуется выдиранием данных из HTML. Предлагаю посмотреть на мою библиотеку «tagstractor».

Есть замечательная фраза про дефекацию и анусные боли. В точности про ТС.

~~baverman~~ ★★★
(22.12.11 07:22:55 MSK)

Ссылка

чуть посмотрел описание. я вообще в этом не очень разбираюсь, но по-моему на питоне есть для парсинга что-то более понятное, чем это. или ты просто описание неправильное сделал, не знаю.

xmikex ★★★★
(22.12.11 09:04:51 MSK)

Ссылка

где-то я это уже видел, причём не так давно

q11q11 ★★★★★
(22.12.11 09:36:33 MSK)

Ссылка

Сделай это как asm-xml, только с поддержкой кривого HTML, незакрытых/двойных тегов, пробелов src=" урлах " и прочей красоты. И еще бы детектилку кодировок, базу последовательностей можно спарсить с википедии. Тогда я смогу запилить свой гугль.

~~xmnsdfgsdfhlgksjhdflgksjd~~
(22.12.11 13:18:35 MSK)

Ответ на: комментарий от xmnsdfgsdfhlgksjhdflgksjd 22.12.11 13:18:35 MSK

Ну оно и похоже на asm-xml и рассчитанно именно на поддержку кривого HTML, т.к. деревья не строятся, а документ рассматривается как линейная последовательность тегов. Соответственно ему пох, что там не закрыто и т.п.

Есть приниматель решений «utf8» или «не utf8».

(-;

kiverattes ★☆
(22.12.11 13:54:42 MSK) автор топика

Опробируйте

Методика опробирования

Zhbert ★★★★★
(22.12.11 13:57:05 MSK)

Ответ на: комментарий от kiverattes 22.12.11 13:54:42 MSK

Дык ты не похоже сделай, а тоже на асме перепиши. И «приниматель» - это очень мало, надо понять что там еще, особенно если микс из кодировок, бывает и такое. Или битые юникодные символы где-то в начале, а дальше все в utf8. Собственно, кривой юникод парсить - это весело.

~~xmnsdfgsdfhlgksjhdflgksjd~~
(22.12.11 14:40:28 MSK)

Ссылка

Ответ на: комментарий от Zhbert 22.12.11 13:57:05 MSK

wtf is that?

Rzhepish ★
(22.12.11 15:13:43 MSK)

Ответ на: комментарий от Rzhepish 22.12.11 15:13:43 MSK

Я одного не понимаю. Зачем это нужно когда есть perl?

unname ★
(22.12.11 15:21:53 MSK)

Ответ на: комментарий от unname 22.12.11 15:21:53 MSK

Я одного не понимаю. Зачем это нужно когда есть perl?

Ты просто не парсил много сайтов или не пробовал ничего вкуснее морковки. Хотя это совсем не отменят абсолютной ненужности сабжа.

~~baverman~~ ★★★
(22.12.11 15:27:20 MSK)

Ответ на: комментарий от baverman 22.12.11 15:27:20 MSK

ну а в чем проблема то? Можно на примере?

unname ★
(22.12.11 16:08:25 MSK)

Ответ на: комментарий от unname 22.12.11 16:08:25 MSK

ну а в чем проблема то? Можно на примере?

Регулярки слишком контекстно зависимы. Их трудно поддерживать. В случае xpath, я опираюсь на структуру (а не на контент) страницы. Это позволяет добиться цели с *намного* меньшими усилиями.

~~baverman~~ ★★★
(22.12.11 16:18:16 MSK)

Очередной burger?

~~stack_protector~~
(22.12.11 16:38:54 MSK)

Ссылка

может уже предлагали но js + e4x, html -> xhtml хотя самодейтельность это хорошо

bga_ ★★★★
(22.12.11 16:55:00 MSK)

Ссылка

Да хватит говорить, никакая не гармошка. Мне вот нужно парсить тысячи страниц в минуту, внутри кривой HTML и даже кодировки. Шаблоны тоже могут незначительно меняться. Что, строить деревья, дабы потом через xpath вытаскивать? Вы представляете, что это нереальный оверхед? Регекспами на порядок быстрее, но когда парсим тысячи страниц, то тоже не очень шустро.

Мной написан велосипед на сишке, который пытается парсить теги, считает из них хеши (с учетом регекспов), дабы сравнивать быстрее, заполняет массивчики хешей и если последовательность соответствует шаблону, то начинается заполнение структур. Как это работает я уже сам плохо понимаю, от метакоманд вида «следовать до пробела, а потом игнорировать 5 тегов» взгляд мутнеет, но работает быстрее, нежели первая версия на перле и его регекспах.

Велосипед автора не пробовал, но посмотрю, ибо альтернатив не знаю.

И не надо говорить про красивый суп, который даже кавычки не может отпарсить.

~~xmnsdfgsdfhlgksjhdflgksjd~~
(22.12.11 17:32:34 MSK)

Ссылка

Ответ на: комментарий от baverman 22.12.11 16:18:16 MSK

Регулярки слишком контекстно зависимы. Их трудно поддерживать. В случае xpath, я опираюсь на структуру (а не на контент) страницы. Это позволяет добиться цели с *намного* меньшими усилиями.

Что говорите? Регекспы контекстно зависимы?) )

unname ★
(22.12.11 18:16:45 MSK)

Ответ на: комментарий от unname 22.12.11 18:16:45 MSK

Регекспы контекстно зависимы

Именно. Порядок атрибутов у тега, форма кавычек. Пробелы можно хавать только через \s+, так как в html могут быть переносы, не забывать стрипать строки, entity. Напарсился я регулярками по самую маковку, уж поверь.

Но это еще пол беды. Самая жопа, когда страница немножко меняется, и из-за привязки к конкретным местам парсинг перестает работать.

В общем, кушайте дальше свою морковку, хе-хе.

~~baverman~~ ★★★
(22.12.11 19:00:59 MSK)

Ответ на: комментарий от baverman 22.12.11 19:00:59 MSK

Regexp к сабжу относится отдалённо, я указал только схожесть с regexp в плане основного принципа работы - матчинг шаблонов. Но в «tt» вы пишете шаблон не для символов текста, а для цепочки тегов с набором атрибутов. При работе с «tt» вам по барабану пробелы, порядок следования атрибутов и др. вещи, которые на себя берёт собственный HTML-парсер (-;

kiverattes ★☆
(22.12.11 19:50:04 MSK) автор топика

Ссылка

Ответ на: комментарий от kiverattes 22.12.11 13:54:42 MSK

Есть приниматель решений

А внутре у него неонка.

~~geekless~~ ★★
(22.12.11 19:53:11 MSK)

Ссылка

А как же XPath?

Minoru ★★★
(22.12.11 20:04:48 MSK)

Ссылка

Ответ на: комментарий от baverman 22.12.11 19:00:59 MSK

1. Переносы пробелы и прочее это разве проблемы для того чтобы изобретать другой велосипед. Судя по всему мало вы с регекспами в перле работали) Привязываться на форму написания регекспами вообще плохой тон.

unname ★
(22.12.11 20:19:01 MSK)

Ответ на: комментарий от unname 22.12.11 20:19:01 MSK

Судя по всему мало вы с регекспами в перле работали

Они там какие-то уличные что-ли? Всего лишь легкий сахарок. Кстати, года три назад я тоже утверждал, что регулярками всё просто и легко делается. Просто не понимал, чем хорош xpath. Советую не быть как любители koi8.

~~baverman~~ ★★★
(23.12.11 14:44:53 MSK)

Ответ на: комментарий от baverman 23.12.11 14:44:53 MSK

Просто не понимал, чем хорош xpath

чем же? ведь это же прааааативный xml

Karapuz ★★★★★
(23.12.11 20:10:57 MSK)

Ответ на: комментарий от Karapuz 23.12.11 20:10:57 MSK

В каком месте? С xslt не путаешь?

~~baverman~~ ★★★
(24.12.11 02:36:09 MSK)

Ответ на: комментарий от baverman 24.12.11 02:36:09 MSK

Википедия: «XPath (XML Path Language) — язык запросов к элементам XML-документа». HTML - не XML, а преобразование некоторых кривых HTML-документов к XHTML / XML не всегда прозрачно.

kiverattes ★☆
(24.12.11 03:20:16 MSK) автор топика

Ответ на: комментарий от kiverattes 24.12.11 03:20:16 MSK

То что у тебя бугурт как у автора сей бесполезной поделки — это давно всем понятно. Сказать то что хотел?

~~baverman~~ ★★★
(24.12.11 03:42:19 MSK)

Ответ на: комментарий от baverman 24.12.11 03:42:19 MSK

Я хотел сказать, что квазисибирский булкогрызественный волокучер превозносится от стохастических гонений пятого порядка, только что это тебе даст? Это и мне-то ничего не даёт...

kiverattes ★☆
(24.12.11 12:26:50 MSK) автор топика

Ссылка

Автор, несмотря на то, что предложенный опус в таком виде действительно не нужен, не принимай всё близко к сердцу, это же ЛОР.

kompas ★
(24.12.11 12:51:59 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	[python]Список допустимых видео-режимов

Development

Какие есть форматы для разметки плейлистов/мультимедии?

→

Похожие темы