Сетевой бот.

0

1

Для начала, чтобы анализировал код html страницы, выдергивал из них ссылки и переходил по ним. Писать на баше, мне кажется сомнительным. На Питоне? Подскажите в какую сторону копать.

Ссылка

←	Аналог Java

Qt QList

→

← 1 2 →

Ответ на: комментарий от Chaser_Andrey 27.05.11 19:34:38 MSK

По крайней мере, разбор QtXml DOM модель у меня проблем ещё не вызывала.

~~erfea~~ ★★★★★
(27.05.11 21:54:46 MSK)

Ссылка

Ответ на: комментарий от PymOxim 27.05.11 19:20:28 MSK

А как обычно скрипты пишут?!

~~erfea~~ ★★★★★
(27.05.11 21:57:19 MSK)

Ответ на: комментарий от erfea 27.05.11 21:57:19 MSK

> А как обычно скрипты пишут?!
В смысле, какой алгоритм. Вырезание ссылок с помощью awk, sed, cut?

~~PymOxim~~
(27.05.11 21:59:53 MSK) автор топика

Ответ на: комментарий от PymOxim 27.05.11 21:59:53 MSK

Вырезание ссылок с помощью awk, sed, cut?

grep -o

~~erfea~~ ★★★★★
(27.05.11 22:14:49 MSK)

Ссылка

Ответ на: комментарий от Donnie_Darko 27.05.11 20:31:29 MSK

>Когда таргет находится не на локальном сервере, то время затраченное на получение контента с него больше, чем время потраченное на вытаскивание нужной информации с уже полученной страницы(неважно чем).

и что? Во вторых серверы разные бывают и методики получения страниц тоже разные. И если полученные миллион страниц потом обрабатывается, то очень важно используется для этого в три раза меньше времени или в три раза больше.

Если вы верите, что уровень абстракции выше той, что вы привыкли использовать - обязательно приводит к быдлокодерству,

я твердо уверен что использовать комбайн который дублирует нужную функцию вместо того чтобы сразу использовать регулярку - это быдлокод, раздувание скрипта в дистрибутив и прочая ересь которую быдлокодеры тащат в питон, да и другие собственно языки.

~~chinarulezzz~~ ★★
(27.05.11 23:18:29 MSK)

Ссылка

Ответ на: комментарий от chinarulezzz 27.05.11 18:35:24 MSK

Я тебя понимаю, сам перфекционист. Но мне идея с DOM кажется более простой, уместной и защищённой от ошибок.

Написать правильный regexp не так просто(сужу по своему опыту и ошибках в чужих скриптах). Одно дело когда ты постоянно их пишешь, другое дело от случая к случаю. Тем более что в shell, perl, python, java итп регекспы разные.

true_admin ★★★★★
(27.05.11 23:24:14 MSK)

Ссылка

Ответ на: комментарий от chinarulezzz 27.05.11 18:30:35 MSK

Регулярки сложны, их надо понимать и разбираться.

В регулярках должен разбираться каждый уважающий себя программист.

Reaper ★★
(28.05.11 02:29:15 MSK)

Ответ на: комментарий от Reaper 28.05.11 02:29:15 MSK

> В регулярках должен разбираться каждый уважающий себя программист.
А ты, уважающий себя программист?

~~PymOxim~~
(28.05.11 06:34:39 MSK) автор топика

Ответ на: комментарий от PymOxim 27.05.11 17:19:20 MSK

>Почему Яндекс?

Потому что гугл задрал нахрен уже.

Кто-то спросил почему QtWebKit... А как яваскрипт собираемся выполнять? QtScript? Нахера? Связка-то есть уже. Если скрипт не волнует, тогда получается, что и парсинг ХТМЛ не нужен - про регулятрки правильно получается писали.

rip86oz
(28.05.11 09:42:01 MSK)

Ссылка

Ответ на: комментарий от PymOxim 28.05.11 06:34:39 MSK

Да.

Reaper ★★
(28.05.11 13:07:07 MSK)

Ответ на: комментарий от Reaper 28.05.11 13:07:07 MSK

> Да
Чего тебе тут тогда с нами с дураками делать? :)

~~PymOxim~~
(28.05.11 13:09:47 MSK) автор топика

Ответ на: комментарий от PymOxim 28.05.11 13:09:47 MSK

Почему ты мне это пишешь? Отвечал я вроде бы не тебе, на вполне определённую фразу, выдернув её из контекста, бо реплика касательно того, что регулярки на уровне выдернуть из файла ссылки - сложны, это аццкая ересь. Мой ответ, кастати, не означает, что целесообразно для твоей задачи регулярками вытаскивать ссылки. Я бы сделал так:

#!/usr/bin/perl

use strict;
$|++;

use WWW::Mechanize;
my $mech = WWW::Mechanize->new;
$mech->get("http://www.web.de");

foreach ($mech->links) {
  next unless $_->url() =~ /^http:/;
  eval { $mech->get( $_->url() ); }
}

Reaper ★★
(28.05.11 15:02:31 MSK)

Ответ на: комментарий от Reaper 28.05.11 15:02:31 MSK

Молодец. Я, к сожаления, не владею даже основами программирования на Perl.

~~PymOxim~~
(28.05.11 15:24:51 MSK) автор топика

Ответ на: комментарий от PymOxim 28.05.11 15:24:51 MSK

>Молодец. Я, к сожаления, не владею даже основами программирования на Perl.

Кстати python-mechanize тоже есть. Впрочем, он ничем не лучше предложенных в треде решений в данном случае.

anonymous
(28.05.11 15:47:27 MSK)

Ссылка

Ответ на: комментарий от PymOxim 28.05.11 13:09:47 MSK

Чего тебе тут тогда с нами с дураками делать? :)

А зачем ты, дурак, полез в программирование?

~~chinarulezzz~~ ★★
(28.05.11 16:02:16 MSK)

Ссылка

Ответ на: комментарий от Reaper 28.05.11 15:02:31 MSK

Mechanize ничем не лучше.)

бо реплика касательно того, что регулярки на уровне выдернуть из файла ссылки - сложны, это аццкая ересь.

надеюсь не мне приписали?))

~~chinarulezzz~~ ★★
(28.05.11 16:04:04 MSK)

Ответ на: комментарий от chinarulezzz 28.05.11 16:04:04 MSK

Да не, говорю же, выдернул из контекста ради пофлеймить.

Reaper ★★
(28.05.11 16:52:45 MSK)

Ссылка

Ответ на: комментарий от anonymous 27.05.11 17:49:18 MSK

рекурсия дает знать много нового:)

etwrq ★★★★★
(28.05.11 22:26:36 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Аналог Java

Development

Qt QList

→

Похожие темы