LINUX.ORG.RU
ФорумTalks

web-scraping хорошо или плохо?

 ,


0

1

Век живи - век учись.

Недавно из чтения хабра узнал, что оказывается для парсинга данных с сайтов такой термин придумали. И что оказывается в народе это чем-то нехорошим, вроде спама, считается и только за сомнение, что это нехорошо, сливают карму. Не мне, у меня аккаунта там нет.

Это особенности элитных хабрамозгов или в самом деле нынче выкачивать сайты и датамайниться по скаченному моветон или я вообще что-то неправильно понял?

★★★★★

Последнее исправление: praseodim (всего исправлений: 1)

Элитные хабраюзеры и прочие далёкие от реальности люди предполагают, что у каждого сайта, который может предоставлять какие-то данные для приложений, есть api, которое конечно же REST.

А то что есть мульёны сайтов, у которх либо нет api, либо это api мягко говоря не полное покрытие имеет - это элитка не знает. Не говоря уже о других приминения, вроде кастомных надстроек на userscript, это вообще что-то ужасное:D

ixrws ★★★
()

плохо типа тем, что ты нагрузку создаешь.

кроме того данными которые ты «воруешь» не владеешь

ну а так, парси, чо

umren ★★★★★
()
Последнее исправление: umren (всего исправлений: 1)

В помощью scraper'ам есть ещё RDF внутри обычных HTML-страниц, который осилили некоторые сайты, чтобы агрегаторы (в т.ч. яндекс) цепляли это. Например, театры продающие билеты на перфомансы.

И что оказывается в народе это чем-то нехорошим, вроде спама

Понятное дело, что илитка пишет свой SAX-парсер с экстракторами данных для каждого сайта без API.

shahid ★★★★★
()
Последнее исправление: shahid (всего исправлений: 1)
Ответ на: комментарий от umren

нагрузку создаешь
данные воруешь

Хабраюзер в тренде.

shahid ★★★★★
()
Ответ на: комментарий от umren

Там еще сравнение с гуглом было, которое не понравилось.

кроме того данными которые ты «воруешь» не владеешь

Типа гуглобот не «ворует»

praseodim ★★★★★
() автор топика
Ответ на: комментарий от shahid

есть ещё RDF внутри обычных HTML-страниц, который осилили некоторые сайты, чтобы агрегаторы (в т.ч. яндекс) цепляли это.

А вот это действительно полезно.

praseodim ★★★★★
() автор топика
Ответ на: комментарий от ixrws

api, которое конечно же REST

Кстати, киньте что-нибудь внятное почитать с примерами реализации вот этого всего. А то я только примерно представляю как это должно выглядеть.

alozovskoy ★★★★★
()
Ответ на: комментарий от alozovskoy

Увы, почти везде где видел REST описывается с очень большим количеством воды. В общем выглядит это так:

GET http://figa.com/users/vasya - это получить профиль vasya, допустим отдаёт что-то вроде { eyes_color : 'red' }

POST http://figa.com/users/vasya - записать пользователя vasya, в качестве body запроса даётся допустим { eyes_color : 'white' }

Ну и конечно используются ещё методы put и delete, хотя не обязательно. По сути у каждого REST сайта получается свой велосипедный rpc:D Ад и израиль.

ну вот ещё http://stackoverflow.com/questions/5757864/examples-of-rest-api-online

ixrws ★★★
()
Ответ на: комментарий от alozovskoy

На определенных ресурсах возвращаешь XML/JSON с сыроватыми данными вместо HTML-страничек. Так же подхватываешь методы POST/PUT/DELETE/ETC в запросах для изменения состояния своей системы через API.

Для разделения и контроля доступа к API используешь табличку с API keys.

Потом пишешь клиенты под все языки программирования.

Нередко людям лень юзать какое-то API даже через готовые клиенты, поэтому ещё пишешь js-либу с очень простым высокоуровневым js-API, которая будет дергать REST API прямо из браузеров и что-то делать прямо с сайтов третьих лиц.

shahid ★★★★★
()
Последнее исправление: shahid (всего исправлений: 1)
Ответ на: комментарий от ixrws

То есть от «обычного» сайта отличается это все тем, что можно GETнуть json вместо страницы с картинками и разметкой, правильно? POST-то всегда вроде примерно так работает.

alozovskoy ★★★★★
()
Ответ на: комментарий от alozovskoy

Ну по сути да, и не обязательно json отдавать. Можно хоть xml, хоть text. Смысл в том, чтобы давать данные и получать данные, как rpc. И также в том, что поидее по одному и тому же url должны быть одни и те же данные всегда, то соответствовать духу веба так сказать. Хотя в rpc подобный подход и так работает десятилетиями просто потому, что менять API считается плохим тоном, только добавлять.

ixrws ★★★
()
Ответ на: комментарий от praseodim

Типа гуглобот не «ворует»

Так он ссылки ставит же. А ты я подозреваю воруешь и наполняешь свои базы, без упоминания откуда ты эти данные взял.

umren ★★★★★
()

web-scraping хорошо или плохо?

Кстати, есть простой ответ на этот вопрос.

Он абсолютно идентичен данному вопросу.

Качать пиратки с торрентов это хорошо или плохо?

Тут каждый решает для себя сам, но обычно этим точно не гордятся на публике.

umren ★★★★★
()
Ответ на: комментарий от umren

Вот же ерунда, потому что взял всё в кучу сгрёб.

То похоже это на пиратки или нет зависит от того каковы условия использования сайта. Если условия либеральные, то никак это вообще не похоже на пиратки. Просто так вышло, что у сайта нет api, а сайт вполне может не запрещать использование его данных. И вообще многие сайты разрешают даже репостинг, если указать ссылки. Не то что использования данных в каких-то там внутренних проектах.

И кстати, взять тех же написателей всяких агрегаторов логов от разных атскок, которые затем парсятся и в биллинг вводятся. Это вещь чистой воды жуть по вашему. Однако это обычная практика и по другому часто не получится.

ixrws ★★★
()
Последнее исправление: ixrws (всего исправлений: 1)
Ответ на: комментарий от ixrws

всяких агрегаторов логов от разных атскок, которые затем парсятся и в биллинг вводятся

давай не мешать понятия web-scraping и парсинг логов ?

umren ★★★★★
()
Ответ на: комментарий от umren

А ты я подозреваю воруешь и наполняешь свои базы, без упоминания откуда ты эти данные взял.

Базы (если их так можно назвать) чисто для себя. А если даже и не, анализ и обработка с многих сайтов какой-то инфы, что тут такого?

praseodim ★★★★★
() автор топика
Ответ на: комментарий от praseodim

Я не понимаю смысла твоего треда, ты пытаешься почистить свою карму что бы ребята поддержали? если делаешь «бизнес» на парсинге чужих сайтов - то сиди себе тихо, если денег с этого у тебя не идет - ну окей, парси, только не в тыщу потоков, а может и сайт упадет.. им обидно наверное будет? :)

umren ★★★★★
()
Ответ на: комментарий от umren

Ну вот смотри. Если пройтись по всем магазинам бытовой техники и запомнить все цены. А потом сделать вывод «Самые дешёвые пылесосы в М.Видео - пойду куплю его там, а самые дешёвые холоднильники в „Эльдорадо“ - пойду куплю его там» - это плохо? А если ещё и друзьям посоветовать? Это наоборот хорошо, ибо способствует честной конкуренции между магазинами.

А если сделать то же самое, но пропарсить онлайн-каталоги этих магазинов? И сделать сервис, который позволяет мгновенно узнать, где какой товар дешевле. Я считаю такие сервисы общественнополезными и очень годными.

Разумеется, если этот сервис будет врать, то это уже недобросовестная конкуренция. Но в таком случае как раз парсить ничего не нужно и даже вредно. Достаточно просто написать «Наш магазин лучше всех».

KivApple ★★★★★
()
Последнее исправление: KivApple (всего исправлений: 3)
Ответ на: комментарий от umren

Он абсолютно идентичен данному вопросу.
Качать пиратки с торрентов это хорошо или плохо?

По-моему кто-то упоролся.

invy ★★★★★
()

Это не плохо и не хорошо. Это просто действие, которое можно использовать как во благо, так и нет. Видимо, по умолчанию все считают, что парсингом сайтов занимаются для воровства контента.

С другой стороны, это очень однообразное и скучное занятие, и человек, им занимающийся, особого уважения не вызывает, даже если при помощи этого уеб-скраппинга спасает по миллиону котят в день.

alix ★★★★
()
Ответ на: комментарий от KivApple

А если ещё и друзьям посоветовать? Это наоборот хорошо, ибо способствует честной конкуренции между магазинами.

Это делает яндекс.маркет, куда сами магазины выгружают товары, что бы он их запарсил. А твой вариант не особо «честный».

umren ★★★★★
()
Ответ на: комментарий от umren

Чем он не честный то? Информация о том, что продают и по какой цене магазины является публичной. Покупатели NDA не подписывали.

KivApple ★★★★★
()
Ответ на: комментарий от umren

Я не понимаю смысла твоего треда, ты пытаешься почистить свою карму что бы ребята поддержали?

Я же сказал, что у меня там нет аккаунта. И никогда не было.

если делаешь «бизнес» на парсинге чужих сайтов - то сиди себе тихо

Это делает яндекс.маркет, куда сами магазины выгружают товары, что бы он их запарсил. А твой вариант не особо «честный».

Да что тут плохого-то?!?!?! ИМХО, но не нравится, что с твоего сайта извлекают информацию, не выкладывай ее вообще.

Ну естественно, парся, не надо невольный ddos устраивать. Плагиатить, выдавая чужие данные за свои тоже.

ПыСы. Какой-то обскурантизм развился в последнее время. Того нельзя, это не так

praseodim ★★★★★
() автор топика
Последнее исправление: praseodim (всего исправлений: 2)
Ответ на: комментарий от stevejobs

Окончание лимита запросов на API обычно намекает илитке на необходимость чуть более вдумчиво прочитать документацию.

shahid ★★★★★
()
Ответ на: комментарий от shahid

ну например ты организуешь свой онлайн-сервис с картой и справочником организаций, под капотом тайно передирая все эти данные с дубльгиса и прочих похожих сервисов. Интересно, какие мануалы надо тебе вдумчиво прочитать, чтобы обойти защиты этих сервисов от кражи данных =)

stevejobs ★★★★☆
()
Ответ на: комментарий от shahid

Окончание лимита запросов на API обычно намекает илитке на необходимость заплатить, что илитке не особо нравится.

drull ★☆☆☆
()

Я сделал маленький API, который отдаёт полезные данные, переваривая кучи Г. на сайтах. На входе - HTML в мегабайты весом, на выходе - 300 байт полезной информации в JSON-формате.

Движок на Perl (Mojolicious), могу приделать туда что-нибудь интересное по желанию уважаемых коллег.

DRVTiny ★★★★★
()
Ответ на: комментарий от KivApple

Разумеется, если этот сервис будет врать, то это уже недобросовестная конкуренция

Проблема та же, что и с OpenSource: кто заплатит за то, чтобы сервис НЕ врал?

DRVTiny ★★★★★
()
Ответ на: комментарий от umren

не особо «честный»

Типа, у Яндекса честно? Они при фильтрации товаров берут по нижнему диапазону, и в выдаче тоже указывают нижнюю цену по магазинам - а не средневзвешенную. Например, «от 3560 руб» [такая цена где-то в Урюпинске]. Нормальной аналитики по товарам Яндекс юзерам не предоставляет. Они это делают, вероятно, для себя. Обычный web-scraping же?

pacify ★★★★★
()
Ответ на: комментарий от pi11

Бедные сайты обокрали! Их спарсили!

Мой сайт когда-то кто-то спарсил, и теперь держит за свои деньги: pacify.ru
Наверное, инфа оказалась для кого-то полезной.
Пользователей никуда человек не перенаправляет, это почти целиком мой исходный сайт за какую-то дату (часть страничек у него не спарсилась).
P.S.Домен я оставил ввиду отсутствия денег год назад.

pacify ★★★★★
()
Ответ на: комментарий от pacify

Обычный web-scraping же?

Нет.

1) Яндекс не парсит сам товары с сайта.
2) Юзер соглашается на условия использования маркета.
3) Юзер сам предоставляет данные в виде выгрузки.

umren ★★★★★
()
Ответ на: комментарий от umren

Что по остальным пунктам?

Сообщество не может себе позволить REST API на каждый сайт, ни централизованного универсального сервиса для сайтов. По психологическим и по экономическим причинам. Больше одного «Яндекса» русскоязычное сообщество не осилит. Посомтри на Mail.Ru и Rambler.ru - они в догоняющих по многим позициям.

А парсеров сайтов - уйма, и ничего тут такого нет.

Например, я нашёл две утечки инфы из УФСИН и ФСКН пару лет назад, как раз методом web-scraping. Уведомил ведомства. И работа у них стала лучше.

Чем ты недоволен-то? Кому надо - всё-равно будут создавать проблемы. На всех полицаев не хватит.

pacify ★★★★★
()
Ответ на: комментарий от pacify

Остальные пункты это

1) Яндекс не парсит сам товары с сайта.
3) Юзер сам предоставляет данные в виде выгрузки.

что является прямо противоположным твоему утверждению

Обычный web-scraping же?

umren ★★★★★
()
Ответ на: комментарий от umren

Ты чем недоволен?

Яндекс вполне успешно последнее время с Гуглем борется с webdoors.

pacify ★★★★★
()
Ответ на: комментарий от stevejobs

ты организуешь свой онлайн-сервис с картой и справочником организаций

Сто-тысяч-первый ненужный справочник организации типа ненужного двагис.

Интересно, какие мануалы надо тебе вдумчиво прочитать, чтобы обойти защиты этих сервисов от кражи данных =)

Не делаю заведомо убыточные днищще-проекты, типа сайтов-копий-аналогов при наличии вполне рабочего оригинала.

shahid ★★★★★
()
Ответ на: комментарий от Xellos

Он хотел быть программистом, но работает рерайтером. Очень нервничает, когда интернет-бомжи копипастят его ненужный контент на ненужную копию.

shahid ★★★★★
()
Ответ на: комментарий от umren

Расскажите это людям придумавшим веб2 и owl

psv1967 ★★★★★
()
Ответ на: комментарий от umren

Качать пиратки с торрентов это хорошо или плохо?

Ты бы не путал «торент» и ?пиратки?. И что такое «пиратки»? Особы женского пола с «холодняком»?

psv1967 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.