LINUX.ORG.RU

На каком языке лучше писать парсеры?

 , ,


0

1

Здравствуйте.

Нужно сделать парсер который сайт очень быстро мог обойти, подскажите на каком языке лучше его писать? Думала на php, но вроде как я понимаю это плохая идея, сможете ещё объяснить мне почему php плох для парсеров?

ОС: ubuntu


Ответ на: комментарий от foror

На джаве с нормальной IDE

На нормальной IDE с джавой. /fixed

no-such-file ★★★★★
()

На чём умеешь на том и нужно писать. Если вдруг, тебе удастся упереться по производительности в что-то кроме скорости сети, ты это что-то можешь переписать всегда на C. Но к этому моменту ты явно прокачаешься, и не будешь задавать странных вопросов.

pon4ik ★★★★★
()

Пиши на ‘’’ Golang ‘’’

Он сейчас модный и быстрый, и зарплаты высокие!

menangen ★★★★★
()

Чистый С c ассемблерными вставками, же!

Shulman
()

Показалось:

[offtop] На каком языке лучше писать высеры парсеры.. [/offtop]

kuzulis ★★
()
Последнее исправление: kuzulis (всего исправлений: 1)

Количество советов парсить регекспами подтверждает инфу о 95% сами знаете кого в любой профессии.

redixin ★★★★
()

Я пишу парсеры на python. Раньше у меня было очень много заказаов на парсинг всего что только можно. python + requests

Andreezy ★★
()

А насчет php. Язык создан изначально для других целей, поэтому в любом случае будут костыли

Andreezy ★★
()

Python + request. Выше уже предлагали

saibogo ★★★★
()

Haskell же. Или OCaml, на твой вкус.

Unicode4all ★★★★★
()
Ответ на: комментарий от tailgunner

И не называй разбор HTML «парсингом»

А в чем отличие разбора (что в переводе на английский будет «parsing») от «парсинга», что непосредственно жаргонизмом от перевода этого слова и является?

Deleted
()
Последнее исправление: Deleted (всего исправлений: 1)

flex и bison

anonymous
()
Ответ на: комментарий от Deleted

В том, что под «парсером» обычно понимают компонент разбора исходного кода, а не web scraper. А процесс разбора, конечно, называется parsing в любом случае, только у HTML (XML) он очень специфический.

tailgunner ★★★★★
()
Ответ на: комментарий от redixin

Я не понимаю что за ненависть к регэкспам?? А вы уверены что не сложится ситуация когда по другому вычленить данные не получиться?

Andreezy ★★
()
Ответ на: комментарий от Andreezy

Я не знаю, попробуй поискать тут.

Вообще, регулярки для текста, для xml и сочувствующих есть более подходящие и правильные инструменты. Если ты думаешь, что это из-за сложности, это не так. Ну хотя я тоже понимаю регулярки только когда их пишу, поэтому стараюсь оставлять рядом комментарий с тем что они должны были разбирать, пока вводные не изменились.

anonymous
()
Ответ на: комментарий от slovazap

Парсеры для стандартных форматов вообще писать не нужно, они есть готовые. А PHP плох вообще для всего.

+1.

dimgel ★★★★★
()
Ответ на: комментарий от redixin

Количество советов парсить регекспами подтверждает инфу о 95% сами знаете кого в любой профессии.

Тссс. Не порть конкурентную среду.

dimgel ★★★★★
()
Ответ на: комментарий от Andreezy

Я пишу парсеры на python. Раньше у меня было очень много заказаов на парсинг всего что только можно.

А потом мне прострелили колено.

dimgel ★★★★★
()
Ответ на: комментарий от anonymous

Ок, после «правильного» парсинга HTML я получаю текст, из которого мне нужно достать только одно слово/число/символ. Чем я его получу если не регуляркой?

Andreezy ★★
()
Ответ на: комментарий от Andreezy

Я не понимаю что за ненависть к регэкспам??

Это неприязнь к тем, кто не умеет выбирать инструмент по назначению.

...данные не получиться?

получится (без мягкого знака)

redixin ★★★★
()
Ответ на: комментарий от i-rinat

Если не путаю, симпл депрекейтед и в 7.1+ его надо слегка править. Или ошибаюсь?

anonymous
()
Ответ на: комментарий от anonymous

Через раз. Вопрос напомнил бородатую цитату

Два раза меня спрашивали: «Скажите, м-р Бэббидж, а если вы введёте в машину неправильные данные, получится ли правильный ответ?». Непостижима та путаница в головах, которая приводит к таким вопросам.

crutch_master ★★★★★
()
Последнее исправление: crutch_master (всего исправлений: 1)
Ответ на: комментарий от crutch_master

Браузер не падает, когда хтмл невалидный, а твой парсер упадет? Тогда это плохой парсер

anonymous
()
Ответ на: комментарий от anonymous

хтмл невалидный, а твой парсер упадет?

Если упадёт - делать на регулярках.

crutch_master ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.