LINUX.ORG.RU

Потестируйте простой язык для выдирания данных из HTML-документов.


0

1

Похож на regexp, но оперирует не символами строки, а HTML-«сущностями» - тегами, атрибутами.

HTML-документ рассматривается как линейная последовательность тегов с атрибутами. Текст между тегами - это тег TEXT, атрибут DATA которого равен самому тексту.

Позволяет описывать шаблоны из HTML тегов и операции извлечения данных из атрибутов найденных тегов найденных шаблонов.

https://sites.google.com/site/pavelkolodin/tt

Базовое описание на английском, внизу дана демка.

Спасибо.

Ответ на: комментарий от kiverattes

ну вот ты и огрызаться начал

а какую цель ты преследовал выкладывая своё поделие на LINUX-форуме, БЕЗ исходников, да ешё и в скомпиленом .exe файле ?????

q11q11 ★★★★★
()
Ответ на: комментарий от kiverattes

Стоп стоп, вот например выбираем библиотеку для HTML того же, когда выбираем почитаем статьи,а из этого можно сделать вывод, что я ожидаю от библиотеки,есть некоторый список что обычно в таких библиотеках есть. А тут какой-то кот в мешке,так как вобще непонятно, а чтовы предлагаете

pylin ★★★★★
()
Ответ на: комментарий от pylin

Какая библиотека понимается под «библиотека для HTML»? Что она должна позволять делать с HTML? Выдирать данные? Я предлагаю выдирать данные описанным образом. Если «описанный образ» неясен, приму замечания по описанию. Если описанный образ не подходит по каким-то причинам - можно найти другую библиотеку.

kiverattes ★☆
() автор топика
Ответ на: комментарий от kiverattes

Уточняю для выдирания. Конкретизируем вопрос: вот есть BeatifulSoup,LXML,в Qt,у Mozilla. Это проверенные решения, с широким сообществом, теперь посмотрев на них и Ваше возникает вопрос: зачем на тест тратить время?

pylin ★★★★★
()
Ответ на: комментарий от pylin

Я думаю это решение можете принять только вы, здесь не место моему мнению.

kiverattes ★☆
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.