Парсинг url

0

1

Добрый день, возникла следующая проблема . Есть файлик с овер 1к ссылок, на страницы, на которых имеется следующий код

<div id="viewooditem_14154483648489995946" class="itemthumbsupergood" onmouseover="Tooltip_over(14154483648489995946);" onmouseout="Tooltip_out(14154483648489995946);" onclick="changeGoodsItem('14154483648489995946');"><img src="/images/01020401-00185.png" width="55" height="55"><br>Good</div>

я в вебе очень плох, но на сколько я понимаю тут идут вызовы js скрипта, защищающий это это изображение.
Собсвено задача распарсить url этой картинки. Известным мне способом lynx -dump не вышло, ибо lynx ее просто не видит. C Wget тоже не получилось. Чем бы еще можно продампить? Прошу помощи, ибо руками 1к страниц не осилю =(

Ссылка

←	Web. А как проще всего сделать кнопочку, по нажатию на которую воспроизводится mp3-файл?

полимер: новый фреймворк от гугла

→

Что тебе из этого «кода» нужно выделить? /images/01020401-00185.png ?

cdshines ★★★★★
(27.08.13 20:10:42 MSK)

Ответ на: комментарий от cdshines 27.08.13 20:10:42 MSK

да (для частных случаев еще текст после br, но таких случаев очень не много)

comp00 ★★★★
(27.08.13 20:12:06 MSK) автор топика

Попробуй Offline Explorer Enterprise :3

~~stevejobs~~ ★★★★☆
(27.08.13 20:12:29 MSK)

Ответ на: комментарий от stevejobs 27.08.13 20:12:29 MSK

дв ты шутник я смотрю. Меня пугают как минимум 2 слова : Explorer и Enterprise.

comp00 ★★★★
(27.08.13 20:13:47 MSK) автор топика

Ответ на: комментарий от comp00 27.08.13 20:12:06 MSK

Если структура сложная, возьми какой-то xpath-парсер и достань по xpath, а если простая, то грепни и дело с концом. Если набежит Kalashnikov со сслыкой на SO и криками «кто парсит xml рекэкспами - тот лох!», забей.

cdshines ★★★★★
(27.08.13 20:14:03 MSK)

Ответ на: комментарий от comp00 27.08.13 20:13:47 MSK

без шуток, это лучший скачиватель сайтов. Но платный, проприетарный и для венды, под wine не проверял.

~~stevejobs~~ ★★★★☆
(27.08.13 20:15:14 MSK)

Ответ на: комментарий от cdshines 27.08.13 20:14:03 MSK

я думаю структура будет посильна grep, вот только не нашел способа как грепнуть исходник, не сохраняя при html-й файл (тонкий намек на wget)

comp00 ★★★★
(27.08.13 20:16:39 MSK) автор топика

Ответ на: комментарий от stevejobs 27.08.13 20:15:14 MSK

когда мне нужно скачать сайт, я пользуюсь wget. Бесплатно, свободно, и под онтопик. А ты мне тут про какие-то эксплореры..

comp00 ★★★★
(27.08.13 20:17:54 MSK) автор топика

Ссылка

Я не совсем понял задачу, но следующая регулярка должна помочь:

^([a-z][a-z0-9+\-.]*:(//[^/?#]+)?)?([a-z0-9\-._~%!$&’()*+,;=:@/]*)

anonymous
(27.08.13 20:18:08 MSK)

Ссылка

Ответ на: комментарий от cdshines 27.08.13 20:14:03 MSK

Если набежит Kalashnikov со сслыкой на SO и криками «кто парсит xml рекэкспами - тот лох!», забей

Кто парсит HTML регэкспами, когда есть вещи типа

http://htmlcleaner.sourceforge.net/

или

http://jsoup.org/

тот действительно эпический лох. Ему даже собственная секретарша не даст.

~~stevejobs~~ ★★★★☆
(27.08.13 20:18:52 MSK)

Ответ на: комментарий от stevejobs 27.08.13 20:18:52 MSK

http://jsoup.org/

вот чего я меньше всего хочу, так писать программку на java для такой рутинной и одноразовой работы ~~с блекджеком и интерфейсом~~. Надеюсь обойтись одним башем.

comp00 ★★★★
(27.08.13 20:21:40 MSK) автор топика
Последнее исправление: comp00 27.08.13 20:22:19 MSK (всего исправлений: 1)

Ответ на: комментарий от stevejobs 27.08.13 20:15:14 MSK

Ради интереса: что он умеет такого, чего не может wget?

bug
(27.08.13 20:23:41 MSK)

Ответ на: комментарий от stevejobs 27.08.13 20:18:52 MSK

держи меня в курсеее

cdshines ★★★★★
(27.08.13 20:25:51 MSK)

Ответ на: комментарий от bug 27.08.13 20:23:41 MSK

наверно, html5, js и прочий флеш

comp00 ★★★★
(27.08.13 20:25:55 MSK) автор топика

Ответ на: комментарий от comp00 27.08.13 20:16:39 MSK

У тебя же есть файл с этой лабудой? Ты его уже сохранил? Или это страница где-то онлайн? Дай ссылку, я тебе xpath подскажу, а ты потом в хроме из консоли получишь список.

cdshines ★★★★★
(27.08.13 20:27:32 MSK)

grep и регулярка?

~~vertexua~~ ★★★★★
(27.08.13 20:28:30 MSK)

Ссылка

Ответ на: комментарий от bug 27.08.13 20:23:41 MSK

ну, например, стягивать «картинки, защищенные js'ом», отправлять html-формы с разными параметрами (типа страниц с пагинатором в виде выпадающего списка), итп (при этом чтобы он не наотправлял лишнего, н-р не нажал кнопку «удалить мою учетку» там есть регулируемые исключения). Сохраненный JS и прочее говно он тоже переписывает, чтобы обращался только к локалхосту. Т.е. в результате получается статическая копия динамического сайта.

~~stevejobs~~ ★★★★☆
(27.08.13 20:29:43 MSK)

Ссылка

Ответ на: комментарий от cdshines 27.08.13 20:25:51 MSK

держи меня в курсеее

вначале попробуй удержать на коленях хоть одну секретаршу

~~stevejobs~~ ★★★★☆
(27.08.13 20:30:44 MSK)

Ответ на: комментарий от comp00 27.08.13 20:21:40 MSK

Правильно, потому что программа на Java потребует компиляции, jar файлов и т.д.

По этому поводу рекомендую забить на Java и написать все в одном текстовике на педоне

http://habrahabr.ru/post/114503/

~~vertexua~~ ★★★★★
(27.08.13 20:31:21 MSK)

Ответ на: комментарий от vertexua 27.08.13 20:31:21 MSK

программа на Java потребует компиляции, jar файлов и т.д.

не знаю что значат все эти слова, открываю текстовый редактор (eclipse) пишу туда что надо и нажимаю кнопку «запустить», УМВР ЧЯДНТ

~~stevejobs~~ ★★★★☆
(27.08.13 20:32:36 MSK)

Ответ на: комментарий от stevejobs 27.08.13 20:30:44 MSK

Ты что-то давно не срал в толксах своим жиденьким моском, у тебя повышено внутричерепное давление и от этого ты начинаешь запускать тыпые шутки. Иди напиши что-то свеженькое, ненужное.

cdshines ★★★★★
(27.08.13 20:37:02 MSK)

Ответ на: комментарий от comp00 27.08.13 20:25:55 MSK

Попробуй запустить это на странице этого треда:

var iterator = document.evaluate('//img', document, null, XPathResult.ANY_TYPE, null);

try {
  var thisNode = iterator.iterateNext();
  
  while (thisNode) {
    console.log(thisNode.src);
    thisNode = iterator.iterateNext();
  }	
}
catch (e) {
  dump( 'Error: Document tree modified during iteration ' + e );
}

cdshines ★★★★★
(27.08.13 20:38:58 MSK)

Ссылка

html - это подмножесство XML, а именно DOM-модель.

Для его парсинга лучше применять парсеры DOM.

bvn13 ★★★★★
(27.08.13 20:41:24 MSK)

Ответ на: комментарий от comp00 27.08.13 20:16:39 MSK

wget -O- http://… 2>/dev/null | sed -nr 'тут регулярка' | wget -i-

не? Я не совсем въехал, по какому критерию ты хочешь выкусывать URL, пиши подробней.

Deleted
(27.08.13 20:44:13 MSK)

Ответ на: комментарий от stevejobs 27.08.13 20:32:36 MSK

Может ему нужно на сервак это дело. A Eclipse-проект в качестве deployment package - не кошерно

~~vertexua~~ ★★★★★
(27.08.13 20:53:54 MSK)

Ссылка

Ответ на: комментарий от bvn13 27.08.13 20:41:24 MSK

Главное не заюзать XML парсер )

~~vertexua~~ ★★★★★
(27.08.13 20:54:32 MSK)

Ссылка

Ответ на: комментарий от cdshines 27.08.13 20:37:02 MSK

Ты бы лучше послушал опытного в этих делах человека, а то в первый же раз опозоришься :-)

~~stevejobs~~ ★★★★☆
(27.08.13 20:55:41 MSK)

Ответ на: комментарий от cdshines 27.08.13 20:27:32 MSK

файл с линками? Есть. Xpath такой

/html/body/div[@class='shade']/div[@class='bg contentbot']/div[@id='content']/div[@class='padd']/div[@class='container_main main_right_pos']/div[@id='com_item']/div[@class='item_contener']/div[@class='level_left']/div[@class='imgitem']/img[@class='zoomimg']/@src

что мне с ним делать?

comp00 ★★★★
(27.08.13 20:56:00 MSK) автор топика

Ответ на: комментарий от stevejobs 27.08.13 20:55:41 MSK

Ах, оставьте, мы же здесь все вас знаем, что вы под приличную персону маскируетесь, клоун вы эдакий!

cdshines ★★★★★
(27.08.13 20:57:10 MSK)

Ответ на: комментарий от Deleted 27.08.13 20:44:13 MSK

не работает в данном случае wget( Не находит вхождения

comp00 ★★★★
(27.08.13 20:57:42 MSK) автор топика

Ответ на: комментарий от comp00 27.08.13 20:57:42 MSK

Чего? ЯННП. Какие вхождения wget должен искать?

Deleted
(27.08.13 20:58:30 MSK)

Ссылка

Ответ на: комментарий от comp00 27.08.13 20:56:00 MSK

Если ты эту страницу в хроме смотришь, сделай ей такой evaluate, как я показал, только xpath свой подставь - это самый негеморный варант на один раз. Если нет - возьми любой перл, напиши скрипт и наслаждайся.

cdshines ★★★★★
(27.08.13 20:58:47 MSK)

Ответ на: комментарий от cdshines 27.08.13 20:57:10 MSK

ну, ваши извращения по запуску xpath в консоли разработчика хромиума чтобы сохранить картинку выглядят как минимум не менее забавно и оригинально... но лучше всё-таки с бабами делать это

~~stevejobs~~ ★★★★☆
(27.08.13 21:00:33 MSK)

Ответ на: комментарий от cdshines 27.08.13 20:58:47 MSK

это конечно уже результат вот только как это сделать в приделах одного скрипта? Неужели из баша никак?

comp00 ★★★★
(27.08.13 21:03:03 MSK) автор топика

Ответ на: комментарий от comp00 27.08.13 21:03:03 MSK

Почему я гуглю вместо тебя? http://stackoverflow.com/questions/15461737/how-to-execute-xpath-one-liners-f...

cdshines ★★★★★
(27.08.13 21:04:58 MSK)

Ссылка

Ответ на: комментарий от stevejobs 27.08.13 21:00:33 MSK

Да что же вы так к этим мистическим «бабам» пристали-то?! В каждом сообщении пытаетесь меня склонить к беседе об оных. Отвяжитесь от меня, гадкий вы, противный балабол.

cdshines ★★★★★
(27.08.13 21:05:59 MSK)

Ответ на: комментарий от comp00 27.08.13 21:03:03 MSK

xmllint --xpath 'selector' filename.xml

~~stevejobs~~ ★★★★☆
(27.08.13 21:11:46 MSK)

Ссылка

Скорее не защита, а плюшки на яваскрипте.

Бери любимый скриптовый язык, первую попавшуюся библиотеку для парсинга хмтл и на колеке наговнокодь, тривиально ж всё.

Kalashnikov ★★★
(27.08.13 21:24:09 MSK)

Ссылка

Ответ на: комментарий от comp00 27.08.13 20:21:40 MSK

вот чего я меньше всего хочу, так писать программку на java для такой рутинной и одноразовой работы
Надеюсь обойтись одним башем.

/0 Писать на баше извращение кроме самых простейших случаев. Супопарсеры, собственно, есть не только под жабу.

Deleted
(27.08.13 21:24:30 MSK)

Ссылка

Ответ на: комментарий от cdshines 27.08.13 21:05:59 MSK

Правильно, поназапускал ты xpath через свои хипстерские руби, теперь никаких женщин не хочется

~~stevejobs~~ ★★★★☆
(27.08.13 21:26:38 MSK)

Ответ на: комментарий от stevejobs 27.08.13 21:26:38 MSK

Хозяйке на заметку: шутка про женщину становится смешнее с каждым разом. Осторожно, ближе ко второму десятку попыток вы рискуете быть посланными. Козероги, вас ждет удачная командировка. Овнам следует избегать брюнетов.

cdshines ★★★★★
(27.08.13 21:33:53 MSK)

Ссылка

Ответ на: комментарий от vertexua 27.08.13 20:31:21 MSK

Пошел я таки по пути питона, но столкнулся с проблемой. Вот проблемный участок Нужно сделать следующеe: получить 4ре цифры,между <br> и </div>, и собственно адрес, что 2мя строками выше. Я смог получить класс <supergoods> но дальше процесс не идет. Эти цифры просто не ищутся. Причем, ни в данном блоке, ни во всем документе. Как-будто их данная библиотечка игнорирует. Делаю через

soup.find()

. Объясни если не сложно, как мне имея родительский блок пробежаться по всем этим <li> и найти в них нужное значение. Вроде есть метод findChildren(), но что с этим лесом делать не понятно.

comp00 ★★★★
(28.08.13 04:01:30 MSK) автор топика

Ответ на: комментарий от comp00 28.08.13 04:01:30 MSK

find выбирает элементы среди потомков, текст - это не элемент. Если хочется разобраться, почитай что такое узел (Node) и элемент и чем они отличаются.

Для текста в супе есть .text, он вернёт всё текстовое содержимое элемента конкатенируя текстовые узлы.

Kalashnikov ★★★
(28.08.13 05:55:12 MSK)

Ответ на: комментарий от Kalashnikov 28.08.13 05:55:12 MSK

Все, разобрался. Спасибо.
//Уж не думал что придется учить что-то принципиально новое, но это к лучшему.

comp00 ★★★★
(28.08.13 10:17:40 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Web. А как проще всего сделать кнопочку, по нажатию на которую воспроизводится mp3-файл?

Web-development

полимер: новый фреймворк от гугла

→

Похожие темы