web-scraping хорошо или плохо?

Элитные хабраюзеры и прочие далёкие от реальности люди предполагают, что у каждого сайта, который может предоставлять какие-то данные для приложений, есть api, которое конечно же REST.

А то что есть мульёны сайтов, у которх либо нет api, либо это api мягко говоря не полное покрытие имеет - это элитка не знает. Не говоря уже о других приминения, вроде кастомных надстроек на userscript, это вообще что-то ужасное:D

~~ixrws~~ ★★★
(17.12.15 17:15:19 MSK)

плохо типа тем, что ты нагрузку создаешь.

кроме того данными которые ты «воруешь» не владеешь

ну а так, парси, чо

umren ★★★★★
(17.12.15 17:41:45 MSK)
Последнее исправление: umren 17.12.15 17:41:54 MSK (всего исправлений: 1)

В помощью scraper'ам есть ещё RDF внутри обычных HTML-страниц, который осилили некоторые сайты, чтобы агрегаторы (в т.ч. яндекс) цепляли это. Например, театры продающие билеты на перфомансы.

И что оказывается в народе это чем-то нехорошим, вроде спама

Понятное дело, что илитка пишет свой SAX-парсер с экстракторами данных для каждого сайта без API.

shahid ★★★★★
(17.12.15 17:43:39 MSK)
Последнее исправление: shahid 17.12.15 17:44:50 MSK (всего исправлений: 1)

Ответ на: комментарий от umren 17.12.15 17:41:45 MSK

нагрузку создаешь
данные воруешь

Хабраюзер в тренде.

shahid ★★★★★
(17.12.15 17:46:07 MSK)

Ссылка

Ответ на: комментарий от umren 17.12.15 17:41:45 MSK

Там еще сравнение с гуглом было, которое не понравилось.

кроме того данными которые ты «воруешь» не владеешь

Типа гуглобот не «ворует»

praseodim ★★★★★
(17.12.15 17:46:11 MSK) автор топика

Ответ на: комментарий от shahid 17.12.15 17:43:39 MSK

есть ещё RDF внутри обычных HTML-страниц, который осилили некоторые сайты, чтобы агрегаторы (в т.ч. яндекс) цепляли это.

А вот это действительно полезно.

praseodim ★★★★★
(17.12.15 17:49:03 MSK) автор топика

Ссылка

Ответ на: комментарий от ixrws 17.12.15 17:15:19 MSK

api, которое конечно же REST

Кстати, киньте что-нибудь внятное почитать с примерами реализации вот этого всего. А то я только примерно представляю как это должно выглядеть.

alozovskoy ★★★★★
(17.12.15 17:53:03 MSK)

Ответ на: комментарий от alozovskoy 17.12.15 17:53:03 MSK

Увы, почти везде где видел REST описывается с очень большим количеством воды. В общем выглядит это так:

GET http://figa.com/users/vasya - это получить профиль vasya, допустим отдаёт что-то вроде { eyes_color : 'red' }

POST http://figa.com/users/vasya - записать пользователя vasya, в качестве body запроса даётся допустим { eyes_color : 'white' }

Ну и конечно используются ещё методы put и delete, хотя не обязательно. По сути у каждого REST сайта получается свой велосипедный rpc:D Ад и израиль.

ну вот ещё http://stackoverflow.com/questions/5757864/examples-of-rest-api-online

~~ixrws~~ ★★★
(17.12.15 18:28:08 MSK)

Ответ на: комментарий от alozovskoy 17.12.15 17:53:03 MSK

На определенных ресурсах возвращаешь XML/JSON с сыроватыми данными вместо HTML-страничек. Так же подхватываешь методы POST/PUT/DELETE/ETC в запросах для изменения состояния своей системы через API.

Для разделения и контроля доступа к API используешь табличку с API keys.

Потом пишешь клиенты под все языки программирования.

Нередко людям лень юзать какое-то API даже через готовые клиенты, поэтому ещё пишешь js-либу с очень простым высокоуровневым js-API, которая будет дергать REST API прямо из браузеров и что-то делать прямо с сайтов третьих лиц.

shahid ★★★★★
(17.12.15 18:35:17 MSK)
Последнее исправление: shahid 17.12.15 18:36:09 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от ixrws 17.12.15 18:28:08 MSK

То есть от «обычного» сайта отличается это все тем, что можно GETнуть json вместо страницы с картинками и разметкой, правильно? POST-то всегда вроде примерно так работает.

alozovskoy ★★★★★
(17.12.15 18:37:08 MSK)

Ответ на: комментарий от alozovskoy 17.12.15 18:37:08 MSK

Ну по сути да, и не обязательно json отдавать. Можно хоть xml, хоть text. Смысл в том, чтобы давать данные и получать данные, как rpc. И также в том, что поидее по одному и тому же url должны быть одни и те же данные всегда, то соответствовать духу веба так сказать. Хотя в rpc подобный подход и так работает десятилетиями просто потому, что менять API считается плохим тоном, только добавлять.

~~ixrws~~ ★★★
(17.12.15 18:45:17 MSK)

Ссылка

Ответ на: комментарий от praseodim 17.12.15 17:46:11 MSK

Типа гуглобот не «ворует»

Так он ссылки ставит же. А ты я подозреваю воруешь и наполняешь свои базы, без упоминания откуда ты эти данные взял.

umren ★★★★★
(17.12.15 18:53:34 MSK)

web-scraping хорошо или плохо?

Кстати, есть простой ответ на этот вопрос.

Он абсолютно идентичен данному вопросу.

Качать пиратки с торрентов это хорошо или плохо?

Тут каждый решает для себя сам, но обычно этим точно не гордятся на публике.

umren ★★★★★
(17.12.15 19:02:15 MSK)

Ответ на: комментарий от umren 17.12.15 19:02:15 MSK

Вот же ерунда, потому что взял всё в кучу сгрёб.

То похоже это на пиратки или нет зависит от того каковы условия использования сайта. Если условия либеральные, то никак это вообще не похоже на пиратки. Просто так вышло, что у сайта нет api, а сайт вполне может не запрещать использование его данных. И вообще многие сайты разрешают даже репостинг, если указать ссылки. Не то что использования данных в каких-то там внутренних проектах.

И кстати, взять тех же написателей всяких агрегаторов логов от разных атскок, которые затем парсятся и в биллинг вводятся. Это вещь чистой воды жуть по вашему. Однако это обычная практика и по другому часто не получится.

~~ixrws~~ ★★★
(17.12.15 19:15:29 MSK)
Последнее исправление: ixrws 17.12.15 19:15:52 MSK (всего исправлений: 1)

Ответ на: комментарий от ixrws 17.12.15 19:15:29 MSK

всяких агрегаторов логов от разных атскок, которые затем парсятся и в биллинг вводятся

давай не мешать понятия web-scraping и парсинг логов ?

umren ★★★★★
(17.12.15 19:34:03 MSK)

Ссылка

Ответ на: комментарий от umren 17.12.15 18:53:34 MSK

А ты я подозреваю воруешь и наполняешь свои базы, без упоминания откуда ты эти данные взял.

Базы (если их так можно назвать) чисто для себя. А если даже и не, анализ и обработка с многих сайтов какой-то инфы, что тут такого?

praseodim ★★★★★
(17.12.15 19:36:07 MSK) автор топика

Ответ на: комментарий от praseodim 17.12.15 19:36:07 MSK

Я не понимаю смысла твоего треда, ты пытаешься почистить свою карму что бы ребята поддержали? если делаешь «бизнес» на парсинге чужих сайтов - то сиди себе тихо, если денег с этого у тебя не идет - ну окей, парси, только не в тыщу потоков, а может и сайт упадет.. им обидно наверное будет? :)

umren ★★★★★
(17.12.15 19:40:00 MSK)

Ответ на: комментарий от umren 17.12.15 19:02:15 MSK

Ну вот смотри. Если пройтись по всем магазинам бытовой техники и запомнить все цены. А потом сделать вывод «Самые дешёвые пылесосы в М.Видео - пойду куплю его там, а самые дешёвые холоднильники в „Эльдорадо“ - пойду куплю его там» - это плохо? А если ещё и друзьям посоветовать? Это наоборот хорошо, ибо способствует честной конкуренции между магазинами.

А если сделать то же самое, но пропарсить онлайн-каталоги этих магазинов? И сделать сервис, который позволяет мгновенно узнать, где какой товар дешевле. Я считаю такие сервисы общественнополезными и очень годными.

Разумеется, если этот сервис будет врать, то это уже недобросовестная конкуренция. Но в таком случае как раз парсить ничего не нужно и даже вредно. Достаточно просто написать «Наш магазин лучше всех».

KivApple ★★★★★
(17.12.15 19:53:53 MSK)
Последнее исправление: KivApple 17.12.15 19:58:04 MSK (всего исправлений: 3)

Ответ на: комментарий от alozovskoy 17.12.15 17:53:03 MSK

Почитай у гугла про их API, например:
https://developers.google.com/youtube/v3/docs/
Пример
https://developers.google.com/youtube/v3/docs/activities/list

Внизу можно потыкать на примере.

invy ★★★★★
(17.12.15 19:58:37 MSK)

Ссылка

Ответ на: комментарий от umren 17.12.15 19:02:15 MSK

Он абсолютно идентичен данному вопросу.
Качать пиратки с торрентов это хорошо или плохо?

По-моему кто-то упоролся.

invy ★★★★★
(17.12.15 20:01:41 MSK)

Ссылка

Это не плохо и не хорошо. Это просто действие, которое можно использовать как во благо, так и нет. Видимо, по умолчанию все считают, что парсингом сайтов занимаются для воровства контента.

С другой стороны, это очень однообразное и скучное занятие, и человек, им занимающийся, особого уважения не вызывает, даже если при помощи этого уеб-скраппинга спасает по миллиону котят в день.

alix ★★★★
(17.12.15 20:07:20 MSK)

Ссылка

Ответ на: комментарий от KivApple 17.12.15 19:53:53 MSK

А если ещё и друзьям посоветовать? Это наоборот хорошо, ибо способствует честной конкуренции между магазинами.

Это делает яндекс.маркет, куда сами магазины выгружают товары, что бы он их запарсил. А твой вариант не особо «честный».

umren ★★★★★
(17.12.15 20:12:14 MSK)

Ответ на: комментарий от umren 17.12.15 20:12:14 MSK

Чем он не честный то? Информация о том, что продают и по какой цене магазины является публичной. Покупатели NDA не подписывали.

KivApple ★★★★★
(17.12.15 20:19:49 MSK)

Ссылка

Ответ на: комментарий от shahid 17.12.15 17:43:39 MSK

у илитки почему-то мгновенно заканчивается лимит запросов, а гетать странички можно с любой скоростью

~~stevejobs~~ ★★★★☆
(17.12.15 20:19:52 MSK)

Ответ на: комментарий от umren 17.12.15 19:40:00 MSK

Я не понимаю смысла твоего треда, ты пытаешься почистить свою карму что бы ребята поддержали?

Я же сказал, что у меня там нет аккаунта. И никогда не было.

если делаешь «бизнес» на парсинге чужих сайтов - то сиди себе тихо

Это делает яндекс.маркет, куда сами магазины выгружают товары, что бы он их запарсил. А твой вариант не особо «честный».

Да что тут плохого-то?!?!?! ИМХО, но не нравится, что с твоего сайта извлекают информацию, не выкладывай ее вообще.

Ну естественно, парся, не надо невольный ddos устраивать. Плагиатить, выдавая чужие данные за свои тоже.

ПыСы. Какой-то обскурантизм развился в последнее время. Того нельзя, это не так

praseodim ★★★★★
(17.12.15 20:35:46 MSK) автор топика
Последнее исправление: praseodim 17.12.15 20:38:20 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от umren 17.12.15 20:12:14 MSK

А твой вариант не особо «честный».

Бедные сайты обокрали! Их спарсили!

pi11 ★★★★★
(17.12.15 20:39:34 MSK)

Ответ на: комментарий от stevejobs 17.12.15 20:19:52 MSK

Окончание лимита запросов на API обычно намекает илитке на необходимость чуть более вдумчиво прочитать документацию.

shahid ★★★★★
(17.12.15 21:44:20 MSK)

Ответ на: комментарий от shahid 17.12.15 21:44:20 MSK

ну например ты организуешь свой онлайн-сервис с картой и справочником организаций, под капотом тайно передирая все эти данные с дубльгиса и прочих похожих сервисов. Интересно, какие мануалы надо тебе вдумчиво прочитать, чтобы обойти защиты этих сервисов от кражи данных =)

~~stevejobs~~ ★★★★☆
(18.12.15 00:51:50 MSK)

Ответ на: комментарий от shahid 17.12.15 21:44:20 MSK

Окончание лимита запросов на API обычно намекает илитке на необходимость заплатить, что илитке не особо нравится.

drull ★☆☆☆
(18.12.15 01:05:48 MSK)

Ссылка

Я сделал маленький API, который отдаёт полезные данные, переваривая кучи Г. на сайтах. На входе - HTML в мегабайты весом, на выходе - 300 байт полезной информации в JSON-формате.

Движок на Perl (Mojolicious), могу приделать туда что-нибудь интересное по желанию уважаемых коллег.

DRVTiny ★★★★★
(18.12.15 01:26:17 MSK)

Ссылка

Ответ на: комментарий от KivApple 17.12.15 19:53:53 MSK

Разумеется, если этот сервис будет врать, то это уже недобросовестная конкуренция

Проблема та же, что и с OpenSource: кто заплатит за то, чтобы сервис НЕ врал?

DRVTiny ★★★★★
(18.12.15 01:29:35 MSK)

Ссылка

Ответ на: комментарий от umren 17.12.15 20:12:14 MSK

не особо «честный»

Типа, у Яндекса честно? Они при фильтрации товаров берут по нижнему диапазону, и в выдаче тоже указывают нижнюю цену по магазинам - а не средневзвешенную. Например, «от 3560 руб» [такая цена где-то в Урюпинске]. Нормальной аналитики по товарам Яндекс юзерам не предоставляет. Они это делают, вероятно, для себя. Обычный web-scraping же?

pacify ★★★★★
(18.12.15 08:33:06 MSK)

Ответ на: комментарий от pi11 17.12.15 20:39:34 MSK

Бедные сайты обокрали! Их спарсили!

Мой сайт когда-то кто-то спарсил, и теперь держит за свои деньги: pacify.ru
Наверное, инфа оказалась для кого-то полезной.
Пользователей никуда человек не перенаправляет, это почти целиком мой исходный сайт за какую-то дату (часть страничек у него не спарсилась).
P.S.Домен я оставил ввиду отсутствия денег год назад.

pacify ★★★★★
(18.12.15 08:35:27 MSK)

Ссылка

Ответ на: комментарий от umren 17.12.15 19:40:00 MSK

Разупорись, ок?

Xellos ★★★★★
(18.12.15 09:18:54 MSK)

Ссылка

Ответ на: комментарий от pacify 18.12.15 08:33:06 MSK

Обычный web-scraping же?

Нет.

1) Яндекс не парсит сам товары с сайта.
2) Юзер соглашается на условия использования маркета.
3) Юзер сам предоставляет данные в виде выгрузки.

umren ★★★★★
(18.12.15 09:36:31 MSK)

Ответ на: комментарий от umren 18.12.15 09:36:31 MSK

Юзер соглашается на условия использования маркета.

Монополия же?

pacify ★★★★★
(18.12.15 09:41:31 MSK)

Ответ на: комментарий от pacify 18.12.15 09:41:31 MSK

Что по остальным пунктам?

umren ★★★★★
(18.12.15 09:43:26 MSK)

Ответ на: комментарий от umren 18.12.15 09:43:26 MSK

Что по остальным пунктам?

Сообщество не может себе позволить REST API на каждый сайт, ни централизованного универсального сервиса для сайтов. По психологическим и по экономическим причинам. Больше одного «Яндекса» русскоязычное сообщество не осилит. Посомтри на Mail.Ru и Rambler.ru - они в догоняющих по многим позициям.

А парсеров сайтов - уйма, и ничего тут такого нет.

Например, я нашёл две утечки инфы из УФСИН и ФСКН пару лет назад, как раз методом web-scraping. Уведомил ведомства. И работа у них стала лучше.

Чем ты недоволен-то? Кому надо - всё-равно будут создавать проблемы. На всех полицаев не хватит.

pacify ★★★★★
(18.12.15 09:50:12 MSK)

Ответ на: комментарий от pacify 18.12.15 09:50:12 MSK

Остальные пункты это

1) Яндекс не парсит сам товары с сайта.
3) Юзер сам предоставляет данные в виде выгрузки.

что является прямо противоположным твоему утверждению

Обычный web-scraping же?

umren ★★★★★
(18.12.15 09:58:16 MSK)

Ответ на: комментарий от umren 18.12.15 09:58:16 MSK

Ты чем недоволен?

Яндекс вполне успешно последнее время с Гуглем борется с webdoors.

pacify ★★★★★
(18.12.15 10:00:45 MSK)

Ссылка

Ответ на: комментарий от umren 18.12.15 09:58:16 MSK

Так чем ты недоволен всё-таки?

Xellos ★★★★★
(18.12.15 10:14:17 MSK)

Ответ на: комментарий от stevejobs 18.12.15 00:51:50 MSK

ты организуешь свой онлайн-сервис с картой и справочником организаций

Сто-тысяч-первый ненужный справочник организации типа ненужного двагис.

Интересно, какие мануалы надо тебе вдумчиво прочитать, чтобы обойти защиты этих сервисов от кражи данных =)

Не делаю заведомо убыточные днищще-проекты, типа сайтов-копий-аналогов при наличии вполне рабочего оригинала.

shahid ★★★★★
(18.12.15 11:13:18 MSK)

Ссылка

Ответ на: комментарий от Xellos 18.12.15 10:14:17 MSK

Он хотел быть программистом, но работает рерайтером. Очень нервничает, когда интернет-бомжи копипастят его ненужный контент на ненужную копию.

shahid ★★★★★
(18.12.15 11:15:21 MSK)

Ответ на: комментарий от shahid 18.12.15 11:15:21 MSK

Бида-пичаль.

Xellos ★★★★★
(18.12.15 11:17:08 MSK)

Ссылка

Ответ на: комментарий от umren 17.12.15 17:41:45 MSK

Расскажите это людям придумавшим веб2 и owl

psv1967 ★★★★★
(18.12.15 11:28:01 MSK)

Ссылка

Ответ на: комментарий от umren 17.12.15 19:02:15 MSK

Качать пиратки с торрентов это хорошо или плохо?

Ты бы не путал «торент» и ?пиратки?. И что такое «пиратки»? Особы женского пола с «холодняком»?

psv1967 ★★★★★
(18.12.15 11:33:31 MSK)

Ссылка

Похожие темы