LINUX.ORG.RU

parser html


0

1

Доброго времени суток!

Хочу распарсить сайт http://msdn.microsoft.com
Нужно быврать названия функции, переменные, атрибуты,...
Наприме, в SDK в mshtml.h нет полной информации.
Для этого на python-е нашел beautifulsoup и soupselect.
Может есть какой то способы сделать это проще? Может есть какие то готовые программы для этого?

Заранее огромное спасибо.

Ответ на: комментарий от Tanger

в результате за 2 дня написал регэксп и доволен

Месье уверен, что следует пытаться распознавать конечный автоматом контекстно-свободную грамматику?

ugoday ★★★★★
()
Ответ на: комментарий от Tanger

Распознавать контекстно-свободную грамматику парсером контекстно-свободных грамматик, вестимо.

ugoday ★★★★★
()
Ответ на: комментарий от Tanger

Их как грязи. Откуда ж я знаю какой из них будет лучше в твоих условиях.

ugoday ★★★★★
()
Ответ на: комментарий от ugoday

Не все регэкспы конечные автоматы ;) В интернет можно найти примеры для вложенных скобок. Правда выглядят они не айс.

OxiD ★★★★
()
Ответ на: комментарий от OxiD

Тьфу. Я хотел сказать не все регекспы детерминированные КА, ну надеюсь вы поняли.

OxiD ★★★★
()
Ответ на: комментарий от OxiD

Это неправильные регекспы, я их презираю.

ugoday ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.