Как «проиндексировать» несколько сайтов? — Web-development

А владельцы «сайтов» не против того, что фактически ты воруешь контент у них?

generator ★★★
(23.04.16 00:22:35 MSK)

необходимо «проиндексировать» страницы сайтов так, как это делают поисковики.

Первым делом man поисковые машины (в Ref будет много полезных ссылок):
https://en.wikipedia.org/wiki/Web_search_engine
После этого man индексацию в поисковых системах (тоже ссылки):
https://en.wikipedia.org/wiki/Search_engine_indexing
После этого можно будет читать о самих поисковых системах.

Получив запрос на поиск от пользователя, просто выполняем запрос к БД, получаем результат. Достоинства: выдача будет работать быстро, можно добавить тыщщи магазинов.

Угу, и твой «достаточно мощный сервак» рухнет как раз когда добавите «тыщщи магазинов».
По себе знаю, у нас проект парсит круглые сутки десятки сотен сайтов конкурентов, на амазонских довольно жирных танках (10-12), и все равно производительности не хватает, планируют расширять парк.
Один «сервачек» (не кластер) даже достаточно мощный, справится разве что с 10-20 сайтами по 5-10к страниц. И то, если учесть что парсинг будет «легким». А если еще говорить о годной индексации, то сразу приедете. Вы еще и планируете на этом же «серваке» и сервис держать? Ужс...

парсим все что нужно, добавляем в БД (в какую, кстати?).

Уж точно не БД в привычном вашем понимании :)

znenyegvkby ★
(23.04.16 00:26:40 MSK)

Ответ на: комментарий от generator 23.04.16 00:22:35 MSK

Ну здесь все зависит от того как использовать информацию. Сам факт парсинга еще ни о чем не говорит.

znenyegvkby ★
(23.04.16 00:28:50 MSK)

Ответ на: комментарий от znenyegvkby 23.04.16 00:28:50 MSK

Сам факт парсинга еще ни о чем не говорит

Сам факт не говорит, но у ТС-а не только парсинг, а ещё и выдача юзерам. Выдача контента, не принадлежащего ему.

generator ★★★
(23.04.16 00:31:18 MSK)

Ответ на: комментарий от generator 23.04.16 00:31:18 MSK

Выдача контента, не принадлежащего ему.

Точно, сори. В суть поста не вникал. Увидел в тэгах «поисковый движок», подумал что поисковые системы, т.е. пользователи будут давать или не давать разрешение на индексацию своих сайтов.

znenyegvkby ★
(23.04.16 00:37:41 MSK)

Ссылка

а правильный ты, все-таки, выбрал аватар. сразу многое объясняет

//тырить чужой контент - подсудное дело. парсить сайты - не самое тривиальное занятие. если ты задаешь такие вопросы на лоре - обвисли ты не справишься со вторым но нарвешься на первое.

~~vostrik~~ ★★★☆
(23.04.16 00:39:12 MSK)

Или исходники под свободной лицензией или в JOB

Goury ★★★★★
(23.04.16 00:51:33 MSK)

Ответ на: комментарий от vostrik 23.04.16 00:39:12 MSK

тырить чужой контент - подсудное дело

Тырить? Я делаю бесплатную рекламу сайтам. Ты вообще пробовал пользоваться сервисом? Чувак вводит запрос, получает на него выдачу. Все ссылки в выдаче ведут на сайты магазинов.

Вопрос - где здесь воровство?

Deleted
(23.04.16 01:11:47 MSK)

Ответ на: комментарий от Deleted 23.04.16 01:11:47 MSK

пользоваться мне ни к чему, а с твоего скрина ни разу не понятно, как собственно сервис работает. не тыришь - ну молодец.

по делу - парсить сайты - долго, геморно и требует гораздо больше прогерства чем тебе кажется. если уж ты делаешь бесплатную рекламу сайтам - свяжись с ними, получи в удобном тебе виде инфу от них - json, xml, plaintext, сложи себе в любую базу и не имей людям мозг парсингом хтмля.

~~vostrik~~ ★★★☆
(23.04.16 01:19:44 MSK)

Ответ на: комментарий от Goury 23.04.16 00:51:33 MSK

https://toster.ru/q/11159

Сам по себе парсинг сайта, как и прочих открытых информационных ресурсов полностью законен, если Вы не взламываете пароли, результаты Вашей работы не меняют код и структуру, а также не влияют на функциональность сайта.
Однако использование полученных ресурсов сайта (например, копипастинг текстов или копирование дизайна) может быть нарушением авторских прав.

Парсинг названий игр не может являться нарушением авторских прав, т.к. игра не принадлежит владельцу магазина.А что еще остается цена? Не думаю, что на нее распространяются авторские права. Хотя мало ли.

П.С. Просмотрел все используемые в данный момент магазины - ни где не было упомянуто, что нельзя парсить сайт.

Deleted
(23.04.16 01:27:06 MSK)
Последнее исправление: Bizun 23.04.16 01:28:33 MSK (всего исправлений: 1)

Ответ на: комментарий от vostrik 23.04.16 01:19:44 MSK

получи в удобном тебе виде инфу от них - json, xml, plaintext, сложи себе в любую базу и не имей людям мозг парсингом хтмля.

Не всегда предоставляют, не всегда эти файлы актуальны, увы =(

Deleted
(23.04.16 01:28:10 MSK)

Ответ на: комментарий от vostrik 23.04.16 01:19:44 MSK

Вспомнил еще один забавный факт - один из магазинов разрешает использовать все свои товары для создания собственного магазина =)

Deleted
(23.04.16 01:30:37 MSK)

Ссылка

Ответ на: комментарий от Deleted 23.04.16 01:28:10 MSK

и зачем тебе тогда делать бесплатную рекламу таким сервисам?

короче. технически твоя проблема решается хреново, долго и неудобно. на уровне менеджмента и коммуникации - быстро и элегантно. хочешь идти по техническому пути - закладывайся на бессонные ночи и прочие прелести работы «тут должно быть 5 человек но вместо них я один и нихрена не понимаю, что я делаю». железо понадобится, да, но это гораздо меньшая проблема чем написание нормального паука

~~vostrik~~ ★★★☆
(23.04.16 01:31:43 MSK)
Последнее исправление: vostrik 23.04.16 01:32:19 MSK (всего исправлений: 1)

Ответ на: комментарий от vostrik 23.04.16 01:31:43 MSK

технически твоя проблема решается хреново, долго и неудобно. на уровне менеджмента и коммуникации - быстро и элегантно

Эх... попробую переговорить со всеми, посмотрим, что получится.

Deleted
(23.04.16 01:37:48 MSK)

Ссылка

Ответ на: комментарий от Deleted 23.04.16 01:27:06 MSK

И зачем ты мне цитируешь какого-то безграмотного тостера?

И так понятно что если твой сервис просто ищет магазины и приводит в них клиентов — ни кто в здравом уме запрещать такой сервис не будет, даже если он что-нибудь нарушит.

Goury ★★★★★
(23.04.16 02:51:51 MSK)

Ссылка

Ответ на: комментарий от generator 23.04.16 00:31:18 MSK

Как же вы задолбали своей юриспруденцией, идите к чёрту, копировать != воровать. Точка. Копировал, копирую, и буду копировать. Да здраствует свобода информации!

~~iluha16~~ ☆
(24.04.16 23:25:07 MSK)

Ответ на: комментарий от znenyegvkby 23.04.16 00:26:40 MSK

Угу, и твой «достаточно мощный сервак» рухнет как раз когда добавите «тыщщи магазинов».

Не знаю какие там объёмы. Но делал на заказ сборщик видео с разных порносайтов на php с помещением ссылок на них и описания в mysql. Всё работало быстро. В базе накопилось около 2 миллионов записей. Скрипты для поиска новых видео (штук 20 сайтов - 20 скриптов) запускаются кроном раз в день. Работает на сервере заказчика к которому подключался по ssh, характеристики железа вроде бы средние но точно не помню.

~~iluha16~~ ☆
(24.04.16 23:30:08 MSK)

Ответ на: комментарий от iluha16 24.04.16 23:30:08 MSK

2 миллиона для любой базы это копейки. Даже для мускуля эти объемы ничто, при адекватном использовании индекса. Я говорю о глубоком парсинге, анализе и индексации. Если из страницы нужно выдернуть пару полей по рег. выражению, то это совсем другой разговор.

znenyegvkby ★
(24.04.16 23:38:54 MSK)

Ответ на: комментарий от znenyegvkby 24.04.16 23:38:54 MSK

А я так понял что там никакого глубокого парсинга и не требуется. Какие то игры ищет по названию из 5 источников. Если будет хранить в базе название игры, описание, стоимость, тэги какие нибудь суперкомпьютер точно не понадобится ему. Пусть автор укажет какое количество этих игр у него там будет ориентировочно и какой функционал, а то возможно его тут зря пугают.

~~iluha16~~ ☆
(25.04.16 00:06:15 MSK)

Ответ на: комментарий от iluha16 25.04.16 00:06:15 MSK

Теперь опишу, как, на мой взгляд, это нужно реализовать: необходимо «проиндексировать» страницы сайтов так, как это делают поисковики.

Ну вот я и описываю это «как делают поисковики».

znenyegvkby ★
(25.04.16 00:11:55 MSK)

Ответ на: комментарий от generator 23.04.16 00:31:18 MSK

Насколько я понимаю, он по сути выдаёт список магазинов, продающих нужную пользователю игру с ценами. И в итоге все ссылки из его поисковой выдачи ведут на сайт, откуда информация взята. То есть его сервис таки аналогичен какому-нибудь гуглу, просто тематическому. Да и я сомневаюсь, что информация о цене товара, выложенная в публичный доступ на сайте магазина, а не доступная по какому-нибудь NDA, может в принципе быть объектом авторского права.

KivApple ★★★★★
(25.04.16 00:26:35 MSK)
Последнее исправление: KivApple 25.04.16 00:28:37 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от znenyegvkby 25.04.16 00:11:55 MSK

Я думал это сайты каталоги. Типа как магазин в котором есть каталог товаров и кнопка «Заказать». Таким образом скрипту надо просто пролистать каталог и выделить RegExpом name, price, description, tags, например /<span\s+class=«name»\s*>(.*?)</span>/, /<span\s+class=«price»\s*>\s*\$([0-9,]+)/...

~~iluha16~~ ☆
(25.04.16 01:26:49 MSK)

Ответ на: комментарий от iluha16 25.04.16 00:06:15 MSK

Игр будет не много, в среднем их в магазине от пары сотен до 2-х тысяч.

Deleted
(25.04.16 08:09:55 MSK)
Последнее исправление: Bizun 25.04.16 08:10:00 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от iluha16 25.04.16 01:26:49 MSK

Мне сейчас не понятно, как пролистать «все» страницы сайта? Я помню, было время, когда у меня инет был просто ужасно медленный. Я ставил сайты «выкачивал» какими то прогами по ночам, а потом читал то, что мне надо было.

Я не понимаю, как это реализовано? Как я могу зайти на страницы, ссылки на которых нет?

Deleted
(25.04.16 08:19:40 MSK)

Ответ на: комментарий от iluha16 24.04.16 23:25:07 MSK

Это ты судье будешь объяснять, я то причём? :)

generator ★★★
(25.04.16 11:07:15 MSK)

Ответ на: комментарий от generator 25.04.16 11:07:15 MSK

Да ладно, неужели копирасты так распустились. Ни разу не слышал что бы из-за индексирования сайтов судились. А вообще хостинг за границей крайне затруднит поиск ответчика, разве что цру какое вычислит если постарается но оно копирастией вроде как не занимается :)

~~iluha16~~ ☆
(25.04.16 11:54:10 MSK)

Ссылка

Ответ на: комментарий от Deleted 25.04.16 08:19:40 MSK

Я не понимаю, как это реализовано? Как я могу зайти на страницы, ссылки на которых нет?

У тебя как сейчас то реализовано? Дай ссылку откуда ты хочешь скрэпить может что подскажу.

~~iluha16~~ ☆
(25.04.16 11:55:43 MSK)

Bizun ★★ drm-free не нужно

надо же, даже заметка соответствующая

жаль тут не банят за такие темы

reprimand ★★★★★
(25.04.16 11:55:56 MSK)

Ссылка

Ответ на: комментарий от iluha16 24.04.16 23:25:07 MSK

копировать != воровать. Точка.

не забудь ссылки на источник поставить, причем нормальные, потому что точки могут засунуть в ответ

reprimand ★★★★★
(25.04.16 11:57:13 MSK)

Ссылка

Ответ на: комментарий от iluha16 25.04.16 11:55:43 MSK

Например, вот:

Deleted
(25.04.16 13:41:48 MSK)

Ответ на: комментарий от Deleted 25.04.16 13:41:48 MSK

Так вот же каталог игр: http://steambuy.com/catalogue.php?page=1. Сохраняй данные в БД с каждой страницы. Пример на PHP:

#!/usr/bin/env php
<?php

function useResults($games) {
  // Replace with DB code
  print_r($games);
}

function mb_trim($s) { return preg_replace(['#^\\s+#Duis','#\\s+$#Duis'],['',''],$s); }

$ch = curl_init();
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HTTPHEADER, [
  "X-Requested-With: XMLHttpRequest",
]);

for ($page = 1, $max_page = 1; $page <= $max_page; $page++) {
  curl_setopt($ch, CURLOPT_URL, "http://steambuy.com/ajax/get.v2.php?0.9809890277032917&sort=cnt_sell&sortMode=descendant&view=extended&q=&izdatel=&currency=wmr&curr=&currMaxSumm[wmr]=3000&currMaxSumm[wmz]=100&currMaxSumm[wme]=70&currMaxSumm[wmu]=1000&letter=&limit=0&page={$page}&minPrice=0&maxPrice=9999&minDate=0&maxDate=0");

  $json = curl_exec($ch);
  $json = json_decode($json, true);
  $total = $json['total'];
  $html = $json['html'];

  $max_page = intval($total / 30);
  if ($total % 30) $max_page++;

  $games = [];
  $html = preg_split('#<div\\s+class="item"\\s*>#Duis', $html, -1, PREG_SPLIT_NO_EMPTY);
  for ($i = 1; $i < count($html); $i++) {
    $game = [];

    if (!preg_match('#<p\\s+class="item-title"\\s*>([^<]+)#Duis', $html[$i], $m)) continue;
    $game['title'] = mb_trim($m[1]);

    if (!preg_match('#<span\\s+class="item-price"\\s*>(\\d+)#Duis', $html[$i], $m)) continue;
    $game['price'] = $m[1];

    $games[] = $game;
  }

  useResults($games);
}

~~iluha16~~ ☆
(25.04.16 14:58:33 MSK)

Ответ на: комментарий от iluha16 25.04.16 14:58:33 MSK

Да, с ним понятно. А как быть с теми магазинами, где такой страницы нет?

Deleted
(25.04.16 15:12:46 MSK)

Ответ на: комментарий от Deleted 25.04.16 15:12:46 MSK

Как нет? В любом магазине по идее должен быть каталог товаров которые он продаёт, в этом весь смысл магазина.

~~iluha16~~ ☆
(25.04.16 15:20:45 MSK)

Ответ на: комментарий от iluha16 25.04.16 15:20:45 MSK

Я просто зашел в один магазин, начал искать «каталог» и не нашел... xD

Потом дошло, что можно просто парсить категории (экшен, гонки и т.д).

Бывает у меня такое =)

Deleted
(25.04.16 16:24:29 MSK)

Ссылка

wget -r -k -np URL

grep -r искать-строку .

~~Spoofing~~ ★★★★★
(02.05.16 08:48:53 MSK)

Ответ на: комментарий от Spoofing 02.05.16 08:48:53 MSK

Во-первых, для целей аффтара подойдёт grep -lri, во-вторых, на реальных объёмах данных греп феерически медленный, в-третьих, wget не стрипает теги, так что по слову body найдутся все страницы.

Я писал убийцу гугла на баше, знаю, о чём говорю.

border-radius ★
(02.05.16 08:58:34 MSK)
Последнее исправление: border-radius 02.05.16 08:59:11 MSK (всего исправлений: 1)

Ссылка

бизун, ты че, вышку так и не окончил, да?

Идея вообще норм, но проектирование....

Очень простой способ

Парсинг контента - очень простой способ ? Чтолол? Оказоустойчивость - нулевая, эффективность - нулевая, сложность поддержки - максимальная, вероятность получить ~~в табло~~ реакцию от авторов ресурсов - максимальная. Ты хоть сам процесс понимаешь? Ты понимаешь, сколько в среднем надо запросов к одному ресурсу для снятия среза всего его контента? С учетом категорий, пагинации? Ты понимаешь, что нормальный магазин твой IP через неделю в блеклист занесет и весь твой парсинг уйдет в жопу? Если нет - то забей, веб, да и вообще программирование не для тебя (кажется, я тебе это года 2 назад еще говорил).

Ну ок, допустим ты совсем неочень и ничего этого не понимаешь. Хранить срез в БД ? А как гарантировать актуальность? Запуск раз в сутки UPDATE не гарантирует актуальность информации в твоем локалсторе, не говоря уже о том, что это повесит твою впску, или что там за ведро у тебя, при первой же итерации.

В общем, есть такая штука, JSON API называется. Если магаз хочет, что бы его контент использовали - он, этот API, запиоливает. Если нет - на нет и суда нет. Те магазины, где ты не смог подцепить данные по JSON/XML в любом случае не будут счастливы, узнав что ты парсишь их контент, даже если сие действие их рекламирует. Только тут такой момент: что рекалама, а что нет? Существует очень высокая, практически 100% вероятность того, что твоя реклама станет антирекламой, на определенном наборе.

comp00 ★★★★
(02.05.16 10:29:38 MSK)
Последнее исправление: comp00 02.05.16 10:30:08 MSK (всего исправлений: 1)

Ответ на: комментарий от comp00 02.05.16 10:29:38 MSK

бизун, ты че, вышку так и не окончил, да?

А ты все так же пытаешься доминировать сидя на форуме?

В общем, есть такая штука, JSON API называется

Буду тебе благодарен, если ты поведаешь о сабже всем магазам рунета. У нас максимум xml предоставляют.

Deleted
(03.05.16 13:21:53 MSK)

Ответ на: комментарий от Deleted 03.05.16 13:21:53 MSK

А ты все так же пытаешься доминировать сидя на форуме?

Я теперь тут предельно редко, и почти ридонли.

Буду тебе благодарен, если ты поведаешь о сабже всем магазам рунета.

Еще раз, все нормальные сторы имеют API или партнерки. Если ты хочешь сотрудничать с ноунеймами, шарашкиными конторами и прочими перекупами, вроде гейбстора - ты ССЗБ.

comp00 ★★★★
(03.05.16 13:47:23 MSK)
Последнее исправление: comp00 03.05.16 13:47:30 MSK (всего исправлений: 1)

Ответ на: комментарий от comp00 03.05.16 13:47:23 MSK

Еще раз, все нормальные сторы имеют API или партнерки. Если ты хочешь сотрудничать с ноунеймами, шарашкиными конторами и прочими перекупами, вроде гейбстора - ты ССЗБ.

Ну если тебя это успокоит, я таки договариваюсь с магазами на счет xml'ек.

Deleted
(03.05.16 13:51:56 MSK)

Ссылка

Ответ на: комментарий от comp00 02.05.16 10:29:38 MSK

Парсинг контента - очень простой способ ? Чтолол? Оказоустойчивость - нулевая, эффективность - нулевая, сложность поддержки - максимальная, вероятность получить в табло реакцию от авторов ресурсов - максимальная.

Да что вы говорите, я вон скрипт выше за 5 минут написал и если что то там поменяется типа дизайн тэги другие будут то переписать его можно за примерно такое же время с нуля. О какой сложности поддержки и отказоустойчивости вы говорите? Да бывает проще regexp'ами извлечь нужную информацию из html чем разбираться в сложном и запутанном API со всякими там авторизациями по ключам непонятным.

Ты понимаешь, что нормальный магазин твой IP через неделю в блеклист занесет и весь твой парсинг уйдет в жопу?

Сомневаюсь что это так. Кто то там сидит и просматривает что ли все логи, кто же этот герой который способен пересмотреть такой объём информации? Тем более этот парсинг много ресурсов не требует и выглядит точно так же как и просмотр каталога обычным пользователем. Если глупостей не совершать типа запуска этого скрипта в бесконечном цикле никто и не заметит даже. А ещё можно паузы поставить между запросом страниц каталога и тогда вообще будет как обычный пользователь который регулярно просматривает каталог. Сколько там страниц 60, 60 запросов раз в день прям завалит сервак магазина можно подумать. Зря пугают автора а сами не знают о чём говорят.

~~iluha16~~ ☆
(03.05.16 18:07:32 MSK)

Ну так кэшируй результаты парсинга.

Deleted
(03.05.16 18:09:00 MSK)

Ссылка

Ответ на: комментарий от iluha16 03.05.16 18:07:32 MSK

Да что вы говорите, я вон скрипт выше за 5 минут написал и если что то там поменяется типа дизайн тэги другие будут то переписать его можно за примерно такое же время с нуля.

Мне лень вчитываться в твою лапшу на пыхе, но если ты считаешь, что код, отваливающийся каждый раз, при сторонних изменениях, — нормой, то с тобой говорить вообще не о чем.

Кто то там сидит и просматривает что ли все логи, кто же этот герой который способен пересмотреть такой объём информации?

Да хоть тот же zabbix. Любое средство мониторинга обнаружит эту подозрительную активность.

Сколько там страниц 60, 60 запросов раз в день прям завалит сервак магазина можно подумать.

60 страниц - это в лучшем случае, для одной категории. А категорий может быть множество. Ставить тайминги между запросами конечно можно, но тогда время сбора информации возрастет в разы, и целые сутки твой сервак только и будет заниматься обновлением бд, вместо того что бы адекватно отвечать на запросы пользователей.

Зря пугают автора а сами не знают о чём говорят.

В отличие от тебя я знаю о чем говорю: есть опыт работы и разработчиком полного стека в вебе, и аналитиком высоконагруженного сервиса.

comp00 ★★★★
(03.05.16 19:25:18 MSK)
Последнее исправление: comp00 03.05.16 19:26:59 MSK (всего исправлений: 1)

Ответ на: комментарий от comp00 03.05.16 19:25:18 MSK

и целые сутки твой сервак только и будет заниматься обновлением бд, вместо того что бы адекватно отвечать на запросы пользователей.

ЛОЛ. Спасибо, поржал, иди рассказывай дальше как твой сервак не смог отвечать на запросы пользователей из-за 10-строчного скрипта. Он у тебя наверное работает под управлением OS поддерживающей только 1 процесс одновременно.

Мне лень вчитываться в твою лапшу на пыхе, но если ты считаешь, что код, отваливающийся каждый раз, при сторонних изменениях, — нормой, то с тобой говорить вообще не о чем.

трололо лапша на пыхе. пых работает и позволяет сделать всё за 5 минут. а ты можешь в это время пойти написать код на Java строчек так на тысячу и незабудь разнести их по 100500 классов. Только вот каким бы заумным не был твой код его всё равно придётся менять если формат страницы изменится, так что пиши уж сразу искусственный интеллект раз уж считаешь оправданным мочить тараканов баллистической ракетой а меня и тапок устроит простой но эффективный инструмент для данной задачи.

~~iluha16~~ ☆
(03.05.16 19:55:19 MSK)

Ответ на: комментарий от comp00 03.05.16 19:25:18 MSK

В отличие от тебя я знаю о чем говорю: есть опыт работы и разработчиком полного стека в вебе, и аналитиком высоконагруженного сервиса.

понты, понты, какой слог, как всё пафосно. рад за тебя.

~~iluha16~~ ☆
(03.05.16 19:56:28 MSK)

Ссылка

Ответ на: комментарий от iluha16 03.05.16 19:55:19 MSK

иди рассказывай дальше как твой сервак не смог отвечать на запросы пользователей из-за 10-строчного скрипта

Ты некомпетентный идиот. Чтобы распарсить страницу, нужно загрузить ее представление. Это как минимум 1 запрос к серваку (а де-факто их намного более), это как минимум одно подключение к БД. А это долго и ресурсоемко. Да, есть кеш. Где он хранится? Правильно, в ОЗУ. Что будет когда кэш-буфер переполнен?
Я уж молчу что ты гоняешь тонну лишнего трафика. Вот она - стрельба из баллистической ракеты по тараканам, а не в использовании стороннего API.

Только вот каким бы заумным не был твой код его всё равно придётся менять если формат страницы изменится

Есть такое понятие, как мета-данные. Но откуда тебе - школьнику - о нем знать.

пых работает и позволяет сделать всё за 5 минут

Твоя ненавидимая java тоже работает. Ruby и python тоже работают. От того что работает твой быдлокод на пых, лапшой меньше он от этого не стал. Вопрос не в том, что работает, а что нет, вопрос в качестве кода.

тапок устроит простой но эффективный инструмент для данной задачи.

Дай угадаю: ты один, и твоя область деятельности это клепать сайтики на кмсках и подпиливать понемногу модули на пыхе, ~~параллельно готовясь к экзаменам в 9м классе~~. Что ж, довольствуйся тапком, пока не поймешь, что более менее крупном проекте, который поддерживает несколько разработчиков, твой тапок не способен прикрыть все дыры, и тараканы таки лезут.

comp00 ★★★★
(03.05.16 20:19:26 MSK)

Ответ на: комментарий от comp00 03.05.16 20:19:26 MSK

Есть такое понятие, как мета-данные.

Если он будет парсить html в лоб - мета-данные будут ярким исключением, а не best-practice.

Вводные ТС-а переписываются в 150-200 магазинов (тысячу он не подключит), средний каталог с запасом оценим в 2000 продукто-карточек. Т.е при поддержке суточной актуальности нагрузка индексатора не должна вылезти из:

- 500к web-запросов;

- 40-50 Гб суточного входящего трафика.

Т.е. проект нельзя назвать высоконагруженным.

Но сколько раз регулярки будут бить ТС-а черенком по лбу - вот тут будет сначала смешно, а потом грустно.

Deleted
(03.05.16 20:47:45 MSK)
Последнее исправление: Rainor 03.05.16 20:48:07 MSK (всего исправлений: 1)

Ответ на: комментарий от comp00 03.05.16 20:19:26 MSK

Ты некомпетентный идиот. Чтобы распарсить страницу, нужно загрузить ее представление. Это как минимум 1 запрос к серваку (а де-факто их намного более), это как минимум одно подключение к БД. А это долго и ресурсоемко. Да, есть кеш. Где он хранится? Правильно, в ОЗУ. Что будет когда кэш-буфер переполнен?

Да это вот как раз ты таковым и являешься либо у тебя какой то древний комп с 10 килобайтами памяти и подключением к сети со скоростью 1 bit/sec. Для современного же компа получение html страницы уж не знаю сколько килобайт она там весит это вообще нет ничто. И засорять память её представлением с помощью каких то заумных парсеров XML (от которых толку ПОЛНЫЙ НОЛЬ т.к. если дизайн сайта поменяется всё равно придётся переделывать а реджекспы так ненавидимые вами энтерпрайзными теоретиками меня ни разу не подводили и работают быстро как понос хаха) я уж точно не собираюсь, хотя в принципе тоже не сложная задача для современных компов. Виндоуз 10 сотни мегабайт передаёт когда шпионит за пользователями, а тут html на пусть 100 килобайт. Да ты похоже пишешь нам из 1950 года, как там господин фон нейман поживает?)))

Я уж молчу что ты гоняешь тонну лишнего трафика. Вот она - стрельба из баллистической ракеты по тараканам, а не в использовании стороннего API.

Надеюсь у лора есть API и ты пишешь мне через него. А то это ж сколько ты своего бесценного трафика потратил на загрузгу всего этого ужасного HTML в свою бесценную память)))

1 запрос к серваку одно подключение к БД долго и ресурсоемко

Ты точно из 1950 года.

Есть такое понятие, как мета-данные. Но откуда тебе - школьнику - о нем знать.

Откуда тебе болтуну теоретику знать что этих метаданных на страницах для которых пишут такие парсеры нет.

Твоя ненавидимая java тоже работает. Ruby и python тоже работают.

С чего ты взял что я её ненавижу, хороший инструмент но не для этой задачи как и микроскоп не для забивания гвоздей.

От того что работает твой быдлокод на пых, лапшой меньше он от этого не стал. Вопрос не в том, что работает, а что нет, вопрос в качестве кода.

Так и скажи - НЕОСИЛИЛ 10 СТРОЧЕК. А то чего не могут осилить частенько ненавидят, вот и причина твоей ненависти к PHP.

Что ж, довольствуйся тапком, пока не поймешь, что более менее крупном проекте, который поддерживает несколько разработчиков, твой тапок не способен прикрыть все дыры, и тараканы таки лезут.

Да полюбому скрипт на 10 строчек это крупный проект который конечно же должно поддерживать множество разработчиков.

~~iluha16~~ ☆
(03.05.16 21:15:50 MSK)

Ответ на: комментарий от iluha16 03.05.16 21:15:50 MSK

Для современного же компа получение html страницы уж не знаю сколько килобайт она там весит это вообще нет ничто

Тащемта, я о сервере сайта, с которого ты парсишь контент.... Но ты в очередной раз показал свое полное непонимание и идиотизм. Даже читать твои конвульсии не собираюсь. Больше с тобой общаться нежелаю, диагноз твой записал:

iluha16 (03.05.2016 21:15:50) тупой школьник, пыхер-быдлокодер, страдающий крайней степенью идиотизма

comp00 ★★★★
(03.05.16 21:27:08 MSK)

Ссылка

Ответ на: комментарий от Deleted 03.05.16 20:47:45 MSK

Best-practice это API, который инкапсулирует реализацию для пользователя. И пусть донор хоть всю архитектуру меняет - внешний интерфейс будет неизменным. Парсить выходной контент это все равно что вместо копирования текста делать скрин, а потом распознавать его компьютерным зрением. Я бы за такое прописывал криптоанализ ректально.

- 500к web-запросов;

Вполне могут положить постгресс. Не совсем до отвала, но до длительных задержек при выполнении запроса - вполне. Потенциальным пользователям магазина будет, мягко говоря, некомфортно. И что, масштабировать кластер, из-за того что подобные школяры с образованием в 9клвссов в цикле http запросы спамят ?

comp00 ★★★★
(03.05.16 21:40:51 MSK)

Похожие темы