LINUX.ORG.RU

Потестируйте простой язык для выдирания данных из HTML-документов.


0

1

Похож на regexp, но оперирует не символами строки, а HTML-«сущностями» - тегами, атрибутами.

HTML-документ рассматривается как линейная последовательность тегов с атрибутами. Текст между тегами - это тег TEXT, атрибут DATA которого равен самому тексту.

Позволяет описывать шаблоны из HTML тегов и операции извлечения данных из атрибутов найденных тегов найденных шаблонов.

https://sites.google.com/site/pavelkolodin/tt

Базовое описание на английском, внизу дана демка.

Спасибо.

По ссылке:

You can download tagstractor-distr-2011-08-01.zip and play with test.exe

Предлагаешь через wine это запускать или как?

Bad_ptr ★★★★★
()
Ответ на: комментарий от Bad_ptr

Ничего не предлагаю, просто констатирую возможность скачивания и запуска exe-файла (-; Под linux соберу вечером.

kiverattes ★☆
() автор топика

Я не понял, оно без исходников что ли?

ptah_alexs ★★★★★
()

ну, довай язык и компилятор к нему

TERRANZ ★★★★
()

GPL? Где сборка под линукс или сырцы? Ты нам что, екзешник предлагаешь?

Zhbert ★★★★★
()
Ответ на: комментарий от kiverattes

> Под linux соберу вечером.

Предполагаю, что без исходников, которые можно собрать как библиотеку под Linux эту поделку тут будут воспринимать как велосипед быдлошкольника (т.е. совсем никому не нужную).

Будут исходники на каком-нибудь гуглокоде - будут и заинтересованные. К тому же подскажут что и как нужно поправить.

anonymous
()
Ответ на: комментарий от anonymous

Сейчас есть вещи, которые хотелось бы изменить, поэтому релизить какую-то библиотеку или исходники с видом «всё готово» нельзя, т.к. ничего до конца не готово. Сейчас можно просто посмотреть на рабочую возможность выдирания данных из HTML реализованным синтаксисом. Если сейчас выложить исходники, придёт куча замечаний, которая известна и без выкладывания исходников, поэтому нецелесообразно сейчас выкладывать исходники или хотя-бы даже .so библиотеку, т.к. есть намерения частично менять интерфейс.

kiverattes ★☆
() автор топика

тебе с нами не по пути, грязный овцеё^W шиндузятник

anonymous
()
Ответ на: комментарий от anonymous

> Детка не осилила XPath?

Скорей всего даже не слышала о таком.

archimag ★★★
()
Ответ на: комментарий от archimag

Для того, чтобы данные из html выдернуть есть куча способов, как есть куча осей. Ничто не лучше, ничто не хуже. Есть ещё для perl какая-то штука крутая...

kiverattes ★☆
() автор топика

И чем это поделие лучше sgrep?

anonymous
()

Ну как так можно, предлагать людям писать на новом языке без достпного кода интерпретатора? Это ж анальное рабство какое-то

Базовое описание на английском

Инглиш доставил) лучше бы на русском написал

annulen ★★★★★
()
Ответ на: комментарий от archimag

Реальный HTML в сети не всегда валидный DOM. Да, есть валидаторы, но это другая тема и это не причина, по которой сделан «TT», причина в том, что лично мне это интересно.

kiverattes ★☆
() автор топика
Ответ на: комментарий от annulen

Инглиш для передачи информации тем, кто не понимает русского, но знает английский. Кто знает английский, тот поймёт и кривой английский, но не поймёт русский. Хотя, есть гугл-транслейт, но это лишняя кнопка. Со временем подкорректирую.

kiverattes ★☆
() автор топика
Ответ на: комментарий от kiverattes

> Реальный HTML в сети не всегда валидный DOM.

А зачем ему быть валидным? Да, DOM не может быть валидным или нет )

archimag ★★★
()
Ответ на: комментарий от kiverattes

Берёшь невалидирующий парсер HTML, получаешься с его помощью DOM и используешь XPath. Наверное все библиотеки для парсинаг XML/HTML так умеют (а которые не умеют то их вообще лучше не юзать).

archimag ★★★
()
Ответ на: комментарий от archimag

Хорошо, а когда я вижу код <div><b>hello world</i></div>, мне текст «hello world» из какого DOM-элемента доставать? Из b или из i?

kiverattes ★☆
() автор топика
Ответ на: комментарий от kiverattes

Видимо скормить мясо html-парсеру-dom-строителю и потом уже смотреть на DOM-дерево и решать, откуда чё вытаскивать, а не на исходный HTML смотреть. Ок.

kiverattes ★☆
() автор топика
Ответ на: комментарий от archimag

Ну если нет проблемы валидного-невалидного HTML, значит таки валидаторы просто работают. А вы сказали, что нужен невалидирующий HTML-парсер. Как так? Ведь процесс принятия решения о том, как трактовать тот или иной «html-конфликт» типа <a>hello<b> cruel</a> world<i> hehehe</b> !!! </i> - это есть процесс валидации, или «приведение» к валидному виду. Где-то были разговоры о том, что разные броузеры по-разному решают эти проблемы и какой-то W3C хочет сделать съезд по этому поводу, чтобы наконец договориться о способах трактовки всех видов таких невалидностей, но видимо они съезд собрали позже, чем я начал работать над TT :)

kiverattes ★☆
() автор топика
Ответ на: комментарий от archimag

Тебе не влом на эту школоту время тратить? С ним же всё уже ясно, всё объяснили. Захочет - сам разберётся.

anonymous
()

Присоединяюсь к предыдущим ораторам. Без исходников даже скачивать не стану.

Miguel ★★★★★
()

На валидных документах можно попытаться использовать awk.

DarkAmateur ★★★★
()
Ответ на: комментарий от anonymous

Вот тебе точно с нами не по пути, грязный крестоёб.

anonymous
()
Ответ на: комментарий от kiverattes

Это не нужно, это просто есть.

светлый мозг виндоузнятничка не может осознать, что легче перейти на нормальную ОС, чем городить костыли под вынду? или что? сборка под линукс где? зачем это сюда тащить было? в бложик к себе тащи.

tazhate ★★★★★
()
Ответ на: комментарий от tazhate

Поставьте сами себя на моё место и сами отреагируйте на свое сообщение, мне на такие сообщения не интересно реагировать. Осуществите лямбда-реакцию.

kiverattes ★☆
() автор топика
Ответ на: комментарий от kiverattes

У меня сильная попаболь от того, что я не получил признания общественности. Осуществляю лямбда-реакцию.

угадал?

tazhate ★★★★★
()
Ответ на: комментарий от tazhate

Что содержит лямбда-реакция - неважно, главное её осуществление.

kiverattes ★☆
() автор топика
Ответ на: комментарий от kiverattes

ТС а Beautiful Soup неа? Он спокойно невалидный HTML парсит,да не С++, но LXML это как раз С есть врапперы для С++ и др. языков, отсюда следует вопрос: зачем Ваша разработка? А если она, как Вы говорите, просто есть, то что на нее тратить время? В чем профит?

pylin ★★★★★
()
Ответ на: комментарий от pylin

В чем профит?

грю же, народного признания человеку хочется.

tazhate ★★★★★
()
Ответ на: комментарий от pylin

Ну наверное не мне оценивать, где какой профит, я за пользователя думать не буду, своей работы хватает. Могу говорить только об отличиях. У меня, например, дерево не строится и валидность HTML-документа отсутствует на повестке дня. У «TT» просто другой принцип работы. Какой принцип нужен юзеру - не мне решать, не говоря уже про профиты.

kiverattes ★☆
() автор топика
Ответ на: комментарий от kiverattes

Не вопрос в другом: вот я юзер и наткнулся на Ваше предложение, очевидно же что тестирование ради тестирование не вариант, значит у решения должны быть какие то преимущества, а пока видим: этого нет, того нет и сырцов нет, то есть и педагогическая ценность для тестировщика стремится к нулю

pylin ★★★★★
()
Ответ на: комментарий от pylin

Я не могу говорить о преймуществах, т.к. выбор всегда вытекает из каких-то критериев, которые известны конкретному юзеру.

Добавил сборку под linux: http://sites.google.com/site/pavelkolodin/html-parsing-2/tagstractor-build-li...

kiverattes ★☆
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.