Как с помощью wget, можно копировать не целиком файлы с сайта, а только то, что находится между тегами?

1

1

Вот пример:

<h4><span itemprop="name">Galya</span>, </h4>
					<p>
			Code001, Schmitt, RSS<br>
<span itemprop="address">5 Avenue<br> Fairbanks, SL 99999<br>Euro</span>
						</p>
					</div>
				</div>
				<div class="margin-bottom-extra">

Уникальные фрагменты которые будут задавать начало и конец

Начало: <h4><span itemprop=«name»>
Конец: <div class=«margin-bottom-extra»>

Или как например записывать эти фрагменты в txt файл?

Ссылка

←	У кого на интеле резко зависает попробуйте и потом напишите прекратилось или нет

arch linux зависание 2-3 секунды

→

Beautiful soup например. Если надо много и часто, Scrappy возможно лучшим решением будет — его можно гонять в 3 строчки кода там, где у BS придётся городить тысячи строк не в пример худшего кода.

anonymous
(14.06.18 16:00:07 MSK)

Ответ на: комментарий от anonymous 14.06.18 16:00:07 MSK

Я незнаю Python (

Kytsor
(14.06.18 16:30:48 MSK) автор топика

Ответ на: комментарий от Kytsor 14.06.18 16:30:48 MSK

Да там не надо питон знать — извлекай себе данные, да извлекай.

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

anonymous
(14.06.18 16:46:52 MSK)

Что значит «с помощью wget»? Ты можешь только скачать страницу целиком, а затем вырвать из неё интересующий тебя кусок.

Вырвать кусок по твоему запросу проще всего с помощью регулярных выражений (grep/sed/awk).

Однако html не является регулярным языком и полноценного парсера на регулярках сделать нельзя.

Tanger ★★★★★
(14.06.18 16:48:38 MSK)

Ответ на: комментарий от anonymous 14.06.18 16:46:52 MSK

СПС! Посмотрю!

Kytsor
(14.06.18 17:16:33 MSK) автор топика

Ссылка

Ответ на: комментарий от Tanger 14.06.18 16:48:38 MSK

Просто качать 2 ляма страниц, а потом их локально обрабатывать, ет очень-очень долго (

Kytsor
(14.06.18 17:19:06 MSK) автор топика

Ответ на: комментарий от Kytsor 14.06.18 17:19:06 MSK

Ты не можешь попросить веб-сервер отправлять тебе блок между ХХХ и YYY.

Всё что ты можешь сделать - указать в заголовках диапазон в байтах, который нужно получить. И только в случае если сервер поддерживает для этой страницы опцию Ranges (а поддерживает он её скорее всего только для статичных файлов).

а потом их локально обрабатывать

Можно не потом, а сразу, через pipe:

wget https://foo.com -O - | ./get_data.sh > data

ет очень-очень долго (

Можно параллельно запросы делать.

А ещё может быть есть где-то интересующая тебя информация по нескольким объектам на одной странице.

Tanger ★★★★★
(14.06.18 18:00:27 MSK)

Ответ на: комментарий от Tanger 14.06.18 18:00:27 MSK

Файлы статичны, диапазон никак незадать там только по тегам возможно отыскать нужен мне кусок текста. Спасибо тебе Tanger !

Kytsor
(14.06.18 21:26:42 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 14.06.18 16:46:52 MSK

Все установил и подключил.

Проблема с написанием кода.
Возможно задать, сначала качать инфу с файлов которые находятся?
site.com/cat1/../../здесь!
site.com/cat2/../../здесь!
site.com/cat3/../../здесь!

Вы могли бы сбросить какой-то Ваш пример скрипта самого парсинга html страниц, чтобы я мог данные подставить?

Kytsor
(15.06.18 01:04:01 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	У кого на интеле резко зависает попробуйте и потом напишите прекратилось или нет

General

arch linux зависание 2-3 секунды

→

Похожие темы