На чем быстрее распарсить страничку?

0

1

www.linux.org.ru/tracker/ вот эту вот. Смотреть в браузере ее неудобно, хочется отдельное консольное окошечко в уголке монитора, где будет поток флуда.

Сейчас каждые 10 секунд дергается bash скрипт с использованием curl'а и case *масок*), чтобы выбрать нужные строки, а затем ${##вырезать} ${**нужные} данные и вывести. Но внезапно, процесс очень ресурсоемкий для CPU. Видимо из-за того, что слишком много строчек в HTML документе направляется на case.

Может, подскажете, на каком языке реализовать парсер странички эффективнее всего? И на чем это лучше сделать - какими-нибудь встроенными библиотеками, или regex'ами, или «вручную» функциями дергая данные?

Ссылка

←	Где взять последний SpiderMonkey?

Утекает память.

→

Меня аж спазмом свело.

Бери любой язык какой знаешь, питоны/перлы какие-нибудь. Про регэкспы забудь, бери любой дом парсер.

А правильный путь - ждать апи или требовать рсс (если сможешь пробиться через заглушку администратора, hizelя).

Kalashnikov ★★★
(14.01.13 11:14:29 MSK)

Ответ на: комментарий от Kalashnikov 14.01.13 11:14:29 MSK

администратора, hizelя

ШТО!?

hizel ★★★★★
(14.01.13 11:15:10 MSK)

Пилил же кто-то из ЛОРовцев консольный клиент.

~~Eddy_Em~~ ☆☆☆☆☆
(14.01.13 11:27:40 MSK)

Может, подскажете, на каком языке реализовать парсер странички эффективнее всего?

Я бы взял perl и парсил через libxml2. Железный, верный вариант.

Regex-ами можно ошибиться да и просто запариться их строить.

bk_ ★★
(14.01.13 11:34:11 MSK)

метрику эффективности в студию.

у тебя есть работающий баш (можеш тут его в апдейт привести) - ты желаеш уменьшить его time следовательно бери компилятор баша.

~~qulinxao~~ ★★☆
(14.01.13 11:45:09 MSK)

Ссылка

http://stackoverflow.com/questions/1297318/compilers-for-shell-scripts

~~qulinxao~~ ★★☆
(14.01.13 11:45:59 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 14.01.13 11:27:40 MSK

Эдуард, вас уже выпустили из ~~сумасшедшего дома~~ бана?

lazyklimm ★★★★★
(14.01.13 12:07:10 MSK)

Нагуглилась библиотека для Java jsoup

alix ★★★★
(14.01.13 12:09:58 MSK)

Ссылка

Ответ на: комментарий от lazyklimm 14.01.13 12:07:10 MSK

Да.

// мне теперь что, на каждое мое сообщение будут подобное писать?

~~Eddy_Em~~ ☆☆☆☆☆
(14.01.13 12:10:45 MSK)

ну жее http://bit.ly/WF3xi3

ggrn ★★★★★
(14.01.13 12:17:26 MSK)

Ссылка

https://github.com/AlexCones/LORA/blob/master/plugins/tracker.sh

derlafff ★★★★★
(14.01.13 12:56:51 MSK)

Ответ на: комментарий от derlafff 14.01.13 12:56:51 MSK

Ах, оно там совсем люто захардкорено

https://github.com/AlexCones/LORA/blob/master/plugins/old_tracker.sh

Вот на регекспах версия

Ну и работать будет, если совсем трекер не испоганили с тех пор, ибо на консольный клиент мы забили :)

derlafff ★★★★★
(14.01.13 12:57:51 MSK)
Последнее исправление: derlafff 14.01.13 12:59:16 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от derlafff 14.01.13 12:56:51 MSK

https://github.com/AlexCones/LORA/blob/master/plugins/tracker.sh

grep'ы и регексы, если хочется железно: node.js, прямая работа с DOM деревом через JavaScript, лучше не придумаешь. Формируй все что хочешь.

BaBL ★★★★★
(14.01.13 12:59:53 MSK)

Ответ на: комментарий от BaBL 14.01.13 12:59:53 MSK

grep'ы и регексы

Нет, тебе кажется. Там python с libxml парсит HTML

derlafff ★★★★★
(14.01.13 13:01:12 MSK)

Ссылка

На чем быстрее распарсить страничку?

LISP, Haskell, SmallTalk ,Agda2, Epigram, Omega, Coq. Делаешь пандорический захват, лифтишь в монаду, потом строишь рекурсивную схему (здесь подойдёт зигохистоморфный препроморфизм ) как монадический трансформер из категории эндофункторов, и метациклически вычисляешь результат. Любой второкурсник справится. А если делать на анафорических лямбдах — так задачка вообще на пять минут. В чем проблема-то?

anonymous
(14.01.13 13:01:31 MSK)

Ответ на: комментарий от Eddy_Em 14.01.13 12:10:45 MSK

Конечно!
Ведь люди не хотят отдавать свой покой, не проверив беды.

~~Spirit_of_Stallman~~ ★★★
(14.01.13 13:01:48 MSK)

Ссылка

Ответ на: комментарий от hizel 14.01.13 11:15:10 MSK

Мы всё знаем!

Deleted
(14.01.13 13:03:57 MSK)

Ссылка

Ответ на: комментарий от bk_ 14.01.13 11:34:11 MSK

Ага... HTML на лоре соответствует стандарту... Не смешите, пробовал парсить с помощью msxml... Ловил кучу исключений по этому поводу....

TOXA ★★
(14.01.13 13:04:42 MSK)

Ответ на: комментарий от TOXA 14.01.13 13:04:42 MSK

HTML

msxml

msxml умеет парсить HTML или ты что-то нехорошее делал?

Deleted
(14.01.13 13:09:20 MSK)

Ответ на: комментарий от Deleted 14.01.13 13:09:20 MSK

По сути - правильный HTML и есть ни что иное, как XML(только без волшебного тега xml) Но тут он не совсем правильный(по крайней мере был таковым, когда я пытался его вытаскивать... Основной проблемой было то, что атрибуты были без кавычек

TOXA ★★
(14.01.13 13:14:37 MSK)

Ответ на: комментарий от anonymous 14.01.13 13:01:31 MSK

Я этот коммент а неизменном виде вижу в каждой подобной теме. На лиспе любую задачу можно решить с помощью одной и той же программы?

marvin_yorke ★★★
(14.01.13 13:18:23 MSK)

Я python+libxml парсил, довольно удобно. Еще говорят какой-то beautifulsoup что-ли есть, он вроде как раз для этого дела

marvin_yorke ★★★
(14.01.13 13:19:42 MSK)

Ссылка

Ответ на: комментарий от TOXA 14.01.13 13:14:37 MSK

По сути - правильный HTML и есть ни что иное, как XML

4.2. В html нет необходимости закрывать теги вроде <br> и т.п. Это никак не есть XML.

Основной проблемой было то, что атрибуты были без кавычек

Это HTML, детка. Он такой, суровый и беспощадный.

Deleted
(14.01.13 13:20:21 MSK)

Ответ на: комментарий от TOXA 14.01.13 13:14:37 MSK

Ничуть, ХМЛ куда строже и различий там полно. Хтмл вообще не очень то обязан быть валидным даже. А msxml упоминать вообще стыдно должно быть.

Kalashnikov ★★★
(14.01.13 13:22:21 MSK)

Ссылка

Нокогири.

~~Spirit_of_Stallman~~ ★★★
(14.01.13 13:22:27 MSK)

Ссылка

Ответ на: комментарий от TOXA 14.01.13 13:04:42 MSK

msxml

libxml2

Ты пропустил ключевое отличие.

bk_ ★★
(14.01.13 13:24:45 MSK)

Ссылка

Ответ на: комментарий от Deleted 14.01.13 13:20:21 MSK

я понимаю, что это хтмл и что там может быть, пардон, задница с тегами. Но тут озвучили предложение парсить с помощью libxml2, что тоже есть XML-парсер и человек может столкнуться с той же проблемой...

TOXA ★★
(14.01.13 13:25:34 MSK)

Ответ на: комментарий от Eddy_Em 14.01.13 11:27:40 MSK

с возвращением *тут должен быть салют*

amazpyel ★★★
(14.01.13 13:27:05 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 14.01.13 12:10:45 MSK

мне теперь что, на каждое мое сообщение будут подобное писать?

естественно,ты же эпичный дядька)) слишком много наследил

amazpyel ★★★
(14.01.13 13:29:10 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 14.01.13 12:10:45 MSK

А где ваша пятая серая звезда?

O02eg ★★★★★
(14.01.13 13:33:14 MSK)

Ссылка

Может, подскажете, на каком языке реализовать парсер странички эффективнее всего?

я на sed делал - быстро и эффективно.

а затем ${##вырезать} ${**нужные} данные и вывести. Но внезапно, процесс очень ресурсоемкий для CPU.

это ты закрутил гвоздь отвёрткой. Молодец, силён.

~~drBatty~~ ★★
(14.01.13 14:06:31 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 14.01.13 12:10:45 MSK

// мне теперь что, на каждое мое сообщение будут подобное писать?

да.

//с возвращением.

~~drBatty~~ ★★
(14.01.13 14:07:40 MSK)

Ссылка

Ответ на: комментарий от anonymous 14.01.13 13:01:31 MSK

LISP, Haskell, SmallTalk ,Agda2, Epigram, Omega, Coq. Делаешь пандорический захват, лифтишь в монаду, потом строишь рекурсивную схему (здесь подойдёт зигохистоморфный препроморфизм ) как монадический трансформер из категории эндофункторов, и метациклически вычисляешь результат. Любой второкурсник справится. А если делать на анафорических лямбдах — так задачка вообще на пять минут. В чем проблема-то?

проблема в том, что на Марсе холодно, и мало кислорода. Т.ч. я пока на третьей планете перекантуюсь.

~~drBatty~~ ★★
(14.01.13 14:09:05 MSK)

Ссылка

Ответ на: комментарий от marvin_yorke 14.01.13 13:18:23 MSK

Я этот коммент а неизменном виде вижу в каждой подобной теме. На лиспе любую задачу можно решить с помощью одной и той же программы?

да. emacs называется.

~~drBatty~~ ★★
(14.01.13 14:10:00 MSK)

Ссылка

Ответ на: комментарий от TOXA 14.01.13 13:25:34 MSK

ВНЕЗАПНО, http://www.xmlsoft.org/html/libxml-HTMLparser.html

anonymous
(15.01.13 09:25:58 MSK)

Ссылка

Ответ на: комментарий от marvin_yorke 14.01.13 13:18:23 MSK

power AI: 1. great and write AI-programm and start it. 2. do nothing.

~~qulinxao~~ ★★☆
(17.01.13 14:06:50 MSK)

Scrapy?

anonymous
(17.01.13 14:12:01 MSK)

Ссылка

Ответ на: комментарий от qulinxao 17.01.13 14:06:50 MSK

дислексик чмошный, когда ж ты наконец самозабанишься-то?!?

anonymous
(17.01.13 14:12:55 MSK)

Ответ на: комментарий от anonymous 17.01.13 14:12:55 MSK

man дислексия аноним

~~qulinxao~~ ★★☆
(17.01.13 15:29:21 MSK)

Ссылка

Привет, попробуй phantomjs, к которому можно написать фильтр xpath на JavaScript. Еще есть CasperJS, вроде он еще сильнее заточен на автоматизацию скреппинга, а также автоматическое тестирование веб-интейфейсов, но я с ним не знаком...

anymouse ★
(21.01.13 02:15:48 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Где взять последний SpiderMonkey?

Development

Утекает память.

→

Похожие темы