На каком языке лучше писать парсеры?

0

1

Здравствуйте.

Нужно сделать парсер который сайт очень быстро мог обойти, подскажите на каком языке лучше его писать? Думала на php, но вроде как я понимаю это плохая идея, сможете ещё объяснить мне почему php плох для парсеров?

ОС: ubuntu

Ссылка

←	решил тут написать тулзу для поиска окон. Зацените говнокод

Перевести строку в словарь

→

← 1 2 →

Я не знаю - сможешь ли ты когда-нибудь написать парсер, но мой ты уже сломал...

yyk ★★★★★
(20.12.18 12:28:55 MSK)

попробуй питон. там несложный синтаксис + есть готовые библиотеки, которые могут что тебе нужно

~~chenbr0~~ ☆
(20.12.18 12:31:30 MSK)

Ответ на: комментарий от chenbr0 20.12.18 12:31:30 MSK

... но нету полноценных лямбд.

ados ★★★★★
(20.12.18 12:33:55 MSK)

Ссылка

Не хочешь пхп - пиши на перле. С регекспом там более чем в порядке.
Или что вообще имелось ввиду?

hbars ★★★★★
(20.12.18 12:34:42 MSK)

На чём удобно, на том и пиши. Регулярки есть везде, обход dom тоже. Я использовал hxselect (https://www.w3.org/Tools/HTML-XML-utils/) с башем для этого дела, т.к. удобно смотреть выхлоп и вообще с пайпами работать, вместо кодинга с итерациями и всякими вонючими либами.

crutch_master ★★★★★
(20.12.18 12:40:17 MSK)
Последнее исправление: crutch_master 20.12.18 12:42:39 MSK (всего исправлений: 1)

Нужно сделать парсер который сайт очень быстро мог обойти

Прежде чем писать парсер нужно хотя бы понять, что узкое место в парсинге интернет-сайтов - скорость отдачи контента сайтом.

Deleted
(20.12.18 12:43:25 MSK)

Ссылка

Ответ на: комментарий от yyk 20.12.18 12:28:55 MSK

Думала

Ей можно :)

hbars ★★★★★
(20.12.18 12:53:15 MSK)

Ссылка

Ответ на: комментарий от hbars 20.12.18 12:34:42 MSK

Хотела на php, но мне сказали что он работает в 1 поток и из-за этого будет очень медленно парсится сайт.

jessgt ★
(20.12.18 12:53:20 MSK) автор топика

Ответ на: комментарий от hbars 20.12.18 12:34:42 MSK

Не надо парсить HTML/json регэкспами!

Shadow ★★★★★
(20.12.18 12:58:44 MSK)

Ссылка

Haskell!

~~Guest_1488~~ ★
(20.12.18 13:00:18 MSK)

Ссылка

Ответ на: комментарий от jessgt 20.12.18 12:53:20 MSK

Проблема в том, что для асинхронного/многопоточного парсера надо организовывать какую-то очередь данных. Обычно берут какую-то бд. Лучше взять готовый фреймворк для парсеров.

Shadow ★★★★★
(20.12.18 13:03:59 MSK)

Думала на php, но вроде как я понимаю это плохая идея, сможете ещё объяснить мне почему php плох для парсеров?

В смысле, «я сама придумала, что он плохой, а вы объясните мне, почему?»

~~Alve~~ ★★★★★
(20.12.18 13:05:57 MSK)

Ответ на: комментарий от Alve 20.12.18 13:05:57 MSK

нененене, выше я писала что мне сказали что php плохо подходит, т.к. он медленный и работает в 1 поток

jessgt ★
(20.12.18 13:09:41 MSK) автор топика

Ответ на: комментарий от Shadow 20.12.18 13:03:59 MSK

Те загонять в базу и потом sql? И как оно быстрее чем в память.

hbars ★★★★★
(20.12.18 13:31:37 MSK)
Последнее исправление: hbars 20.12.18 13:32:47 MSK (всего исправлений: 1)

Это скраппер, а не парсер. Ищем удобную либу для любого языка и вперёд.

Вангую питон.

~~RazrFalcon~~ ★★★★★
(20.12.18 13:31:39 MSK)

Ссылка

сайт очень быстро мог обойти

https://www.linuxjournal.com/content/downloading-entire-web-site-wget

deep-purple ★★★★★
(20.12.18 13:35:44 MSK)

Ссылка

На любом языке общего назначения. Что из языков ты знаешь, кроме PHP?

Deleted
(20.12.18 13:43:53 MSK)

Ответ на: комментарий от Deleted 20.12.18 13:43:53 MSK

javascript (nodejs)

jessgt ★
(20.12.18 13:52:56 MSK) автор топика

Ответ на: комментарий от hbars 20.12.18 13:31:37 MSK

Не надо городить пул в памяти же. Быстрее в разработке.

Shadow ★★★★★
(20.12.18 13:53:09 MSK)

Ссылка

Ответ на: комментарий от jessgt 20.12.18 12:53:20 MSK

но мне сказали что он работает в 1 поток и из-за этого будет очень медленно парсится сайт.

А вы уверены, что тот кого вы собираетесь парсить будет рад нагрузке от вашего парсера в N-потоков?

Чтиво на подумать: https://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_directive

Deleted
(20.12.18 13:55:15 MSK)

Ссылка

javascript, ибо к нему куча инструментов по разбору любых сайтов с подключением браузеров в нескольких вариантах, на пхп ты далеко не уедешь

umren ★★★★★
(20.12.18 13:58:16 MSK)

Ссылка

Ответ на: комментарий от jessgt 20.12.18 13:52:56 MSK

Ну так и что бы не взять например https://www.npmjs.com/package/node-html-parser ? Единственная проблема которую видно сразу -

For this reason, some malformatted HTML may not be able to parse correctly, but most usual errors are covered (eg. HTML4 style no closing <li>, <td> etc).

Deleted
(20.12.18 14:01:42 MSK)

Ссылка

на каком языке лучше его писать?

На котором умеешь писать код.

на php, но вроде как я понимаю это плохая идея

PHP мало чем отличается от других языков по основной сути. Его ругают, но код на нём всё же работает.

сможете ещё объяснить мне почему php плох для парсеров?

Это нужно спрашивать у тех, кто заявляет, что «PHP плох для парсеров».

Для PHP рекомендую взять http://simplehtmldom.sourceforge.net/ (хотя я других библиотек и не пробовал вообще-то). Для Python — https://www.crummy.com/software/BeautifulSoup/bs4/doc/, запускать под PyPy.

i-rinat ★★★★★
(20.12.18 14:14:10 MSK)

почему php плох для парсеров

Ни почему не плох. Не хуже, чем любая другая скриптота. Бери любой асинхронный фреймворк и вперёд, к победе коммунизма.

no-such-file ★★★★★
(20.12.18 15:08:34 MSK)

Ссылка

Ответ на: комментарий от jessgt 20.12.18 13:09:41 MSK

мне сказали что php плохо подходит, т.к. он медленный и работает в 1 поток

Тебя обманули.

no-such-file ★★★★★
(20.12.18 15:14:18 MSK)

Ссылка

Ну если у тебя вообще есть понимание того как пишутся парсеры, то наверное должна понимать что разницы особой нет. Какой язык тебе привычней на том и пиши. cURL, регулярки и прочий инструментарий есть везде (на самом деле нет, но это не важно).

schizoid89
(20.12.18 15:37:27 MSK)

Ссылка

Парсеры для стандартных форматов вообще писать не нужно, они есть готовые. А PHP плох вообще для всего.

slovazap ★★★★★
(20.12.18 15:51:09 MSK)

Не важно, что за ЯП или библиотека, главное, чтобы chrome headless.

Deleted
(20.12.18 15:52:02 MSK)

Ссылка

который сайт очень быстро мог обойти

Какой сайт и насколько быстро

goingUp ★★★★★
(20.12.18 16:48:00 MSK)

Ссылка

А мог бы уже сделать. Чем тебя нода не устроила? Твоя задача сводится к пониманию структуры представления на сайте и поиску xpath, если искомые элементы типа ссылок «далее» промаркированы, то вообще всё просто.

Бери scrappy, если питона не знаешь. Там по-моему можно без проблем headless браузер прикрутить для джаваскрипта, но процессинг жс это ресурсоёмко будет.

anonymous
(20.12.18 16:58:54 MSK)

Ссылка

На том, что знаешь. Библиотеки разбора HTML есть везде.

И не называй разбор HTML «парсингом»

tailgunner ★★★★★
(20.12.18 17:12:00 MSK)

Парсилку html в php можно запросто написать, если регекспами парсить.

anonymous
(20.12.18 17:17:42 MSK)

Ответ на: комментарий от anonymous 20.12.18 17:17:42 MSK

Я так понимаю, призывалась эта ссылка.

tailgunner ★★★★★
(20.12.18 17:21:48 MSK)

Ответ на: комментарий от tailgunner 20.12.18 17:21:48 MSK

Мало ли о чем там дегенераты пишут, их там много и пишут они достаточно. С помощью регекспов, которые КА разбора регулярных грамматик, можно распарсить все, что угодно.

ПХП медленный, если автомат разбора руками по символьно, а если на основе регекспов его сделать и из ПХП им управлять и никаких особых тормозов разбора не будет.

anonymous
(20.12.18 17:29:18 MSK)

Ответ на: комментарий от anonymous 20.12.18 17:29:18 MSK

Мало ли о чем там дегенераты пишут, их там много

Здесь тоже есть.

С помощью регекспов, которые КА разбора регулярных грамматик, можно распарсить все, что угодно.

Тонко.

tailgunner ★★★★★
(20.12.18 17:29:52 MSK)
Последнее исправление: tailgunner 20.12.18 17:30:37 MSK (всего исправлений: 1)

Ответ на: комментарий от tailgunner 20.12.18 17:29:52 MSK

Самокритично, даже я бы сказал, неожиданно. Хвалю.

anonymous
(20.12.18 17:30:53 MSK)

Ссылка

https://kaitai.io/

Kaitai Struct, про него на ЛОРе были новости. Описываешь формат в декларативном виде и генерируешь парсер под язык, который тебе нравится (если он поддерживается Kaitai Struct).

Pravorskyi ★★★
(20.12.18 17:31:33 MSK)

Ответ на: комментарий от Pravorskyi 20.12.18 17:31:33 MSK

Как-то много шутников в этой теме,

tailgunner ★★★★★
(20.12.18 17:32:33 MSK)

Ссылка

Ответ на: комментарий от hbars 20.12.18 12:34:42 MSK

причём тут парсер и регекспы?

https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtm...

Ford_Focus ★★★★★
(20.12.18 21:10:23 MSK)

Ссылка

Ответ на: комментарий от jessgt 20.12.18 13:09:41 MSK

он медленный

http://blogerator.org/uploads/pix2015/php7-stogov-3.jpg

работает в 1 поток

http://php.net/manual/ru/intro.pthreads.php

http://php.net/manual/ru/intro.pcntl.php

но вообще для парсинга ничего этого не нужно

разбирать html можно даже simplexml'ом

Ford_Focus ★★★★★
(20.12.18 21:18:26 MSK)

Ссылка

Ответ на: комментарий от jessgt 20.12.18 13:52:56 MSK

https://developers.google.com/web/tools/puppeteer/get-started

но тебе это тоже не нужно

Ford_Focus ★★★★★
(20.12.18 21:21:12 MSK)

Ссылка

Няшная растишечка же!

Rust для парсеров идеален.

anonymous
(20.12.18 22:18:46 MSK)

Ссылка

на том, который умеет работать с регулярными выражениями

grem ★★★★★
(20.12.18 22:23:12 MSK)

Ответ на: комментарий от grem 20.12.18 22:23:12 MSK

Конечно нет, в 99% случаев тебе не придутся использовать регулярки никак. Ну и потом, парсить регулярками html, это такое себе. Даже если они достаточно быстрые, профит будет убит тем что там по 10000 циклов разборов на каждом предложении.

anonymous
(20.12.18 22:40:35 MSK)

Рекомендую Perl5. Язык был специально создан для обработки данных. Существует множество готовых библиотек и даже программ — для разных форматов, например. Беспрецедентная поддержка UNICODE. Позиционируется как максимально приближенный к естественному (английскому) языку синтаксис, поэтому, помимо всего прочего, множество интуитивно понятных примеров конструкций. Те же регулярные выражения возникли как стандарт именно из развития Perl5, в который они очень гармонично встроены.

Infra_HDC ★★★★★
(20.12.18 23:38:55 MSK)

Ссылка

Ragel. Дальше можешь использовать любой другой язык для обработки напаршеного.

xpahos ★★★★★
(21.12.18 00:49:44 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.12.18 22:40:35 MSK

Не заметил, что там речь именно о сайте :(

grem ★★★★★
(21.12.18 07:38:09 MSK)

Ссылка

Ответ на: комментарий от jessgt 20.12.18 13:52:56 MSK

cheerio тогда возьми.

deadNightTiger ★★★★★
(21.12.18 07:44:06 MSK)

Ссылка

Ответ на: комментарий от jessgt 20.12.18 13:09:41 MSK

Берешь paralell и качаешь хоть во сколько хочешь потоков. Потом cat page1.html | hxnormalize | hxselect <css_selector> | perl -pe "/regexp/" | grep | sed | ... | perl -pe "..." >> profit.txt Кода минимум и ничего знать не надо вообще, кроме регулярок и css селекторов. Но парсинг это такое дело, что каждую новую задачу будешь решать разными средствами. Где-то хватит curl, а где-то нужен selenium. Где-то можно hxselect | регулярками, а где-то есть нормальный api и можно обойтись jq / нодой.

crutch_master ★★★★★
(21.12.18 07:46:28 MSK)
Последнее исправление: crutch_master 21.12.18 07:55:02 MSK (всего исправлений: 6)

Ссылка

который сайт очень быстро мог обойти

Тебя забанят или просто сервер положишь (а это уже уголовка, особенно для детей в рядах Навального), если будешь сайты быстро обходить. Если хочешь быстро, то прежде задайся вопросом где взять охапку проксей по дешевке.

на каком языке лучше его писать?

На джаве с нормальной IDE.

сможете ещё объяснить мне почему php плох для парсеров?

Парсер это не рокетсайнс, его хоть на баше может делать, поэтому пхп сойдет. Главное то не ЯП, а хорошая библиотека под это дело. Найдешь хорошую библиотеку, с хорошей документацией - считай пол дела сделано.

foror ★★★★★
(21.12.18 07:58:00 MSK)
Последнее исправление: foror 21.12.18 08:00:19 MSK (всего исправлений: 2)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	решил тут написать тулзу для поиска окон. Зацените говнокод

Development

Перевести строку в словарь

→

Няшная растишечка же!

Похожие темы