Python Web-Scraping без сторонних библиотек возможно ли реализовать?

0

1

Всем привет! Я пытаюсь сделать веб-скрапер без каких-либо сторонних библиотек, возможно ли это реализовать только из стандартной библиотеки Python? Или все таки Beautiful Soup лучше?

Ссылка

←	при первом попадании в рекурсионную функцию выполнить условие

Степпер для SBCL - помогайте

→

Два варианта, и оба сторонних - BS и lxml. Или пишешь свой парсер xml/html.

Хотя, вот ещё есть - https://docs.python.org/3/library/html.parser.html#module-html.parser

vvn_black ★★★★★
(27.12.17 14:45:20 UTC)
Последнее исправление: vvn_black 27.12.17 14:47:10 UTC (всего исправлений: 1)

Ссылка

Как в 2К18 можно парсить веб без жиэса? Поднимай ноду с phantomjs.

Deleted
(27.12.17 14:53:17 UTC)

BS в сотни раз более удобный чем стандартный html парсер питона. Так что если у тебя нет жестких ограничений мешающих взять BS - бери BS.

Aswed ★★★★★
(27.12.17 14:53:36 UTC)

Ссылка

Ответ на: комментарий от Deleted 27.12.17 14:53:17 UTC

А если в 2K18 все с крыши прыгать будут, ты тоже прыгнешь?

Aswed ★★★★★
(27.12.17 14:54:54 UTC)

Ответ на: комментарий от Aswed 27.12.17 14:54:54 UTC

от советов js до прыжка с крыши - один шаг, так что - да

I-Love-Microsoft ★★★★★
(27.12.17 15:09:50 UTC)

Ответ на: комментарий от I-Love-Microsoft 27.12.17 15:09:50 UTC

При-чём это шаг вперёд (:

По теме: можно, но лучше BS (или что-то ещё)

MrClon ★★★★★
(27.12.17 15:14:49 UTC)

Ссылка

Ответ на: комментарий от Aswed 27.12.17 14:54:54 UTC

Странная аналогия.

Deleted
(27.12.17 15:18:41 UTC)

Ссылка

Ответ на: комментарий от Deleted 27.12.17 14:53:17 UTC

Зачем, есть же cheerio

deadNightTiger ★★★★★
(27.12.17 15:19:33 UTC)

Ответ на: комментарий от deadNightTiger 27.12.17 15:19:33 UTC

Классная либа, судя по всему.

Но на сколько я понял, она не выполнит жиэс на странице, в отличии от фантома.

Deleted
(27.12.17 15:22:53 UTC)

Все сильно зависит от сайта. Некоторые удобно парсить BS, некоторые регулярками, а где-то нужено исполнение JS для формирования страницы. Так что под каждый сайт инструмент стоит выбирать отдельно, универсального нет. Точно есть - PhantomJS/ Selenium/puppetter, но они жрать будут на прядок, если не на два, больше.

Norgat ★★★★★
(27.12.17 16:15:19 UTC)