LINUX.ORG.RU

Как с помощью wget, можно копировать не целиком файлы с сайта, а только то, что находится между тегами?

 , ,


1

1

Вот пример:

<h4><span itemprop="name">Galya</span>, </h4>
					<p>
			Code001, Schmitt, RSS<br>
<span itemprop="address">5 Avenue<br> Fairbanks, SL 99999<br>Euro</span>
						</p>
					</div>
				</div>
				<div class="margin-bottom-extra">

Уникальные фрагменты которые будут задавать начало и конец

Начало: <h4><span itemprop=«name»>
Конец: <div class=«margin-bottom-extra»>

Или как например записывать эти фрагменты в txt файл?



Последнее исправление: Kytsor (всего исправлений: 1)

Beautiful soup например. Если надо много и часто, Scrappy возможно лучшим решением будет — его можно гонять в 3 строчки кода там, где у BS придётся городить тысячи строк не в пример худшего кода.

anonymous
()

Что значит «с помощью wget»? Ты можешь только скачать страницу целиком, а затем вырвать из неё интересующий тебя кусок.

Вырвать кусок по твоему запросу проще всего с помощью регулярных выражений (grep/sed/awk).

Однако html не является регулярным языком и полноценного парсера на регулярках сделать нельзя.

Tanger ★★★★★
()
Ответ на: комментарий от Kytsor

Ты не можешь попросить веб-сервер отправлять тебе блок между ХХХ и YYY.

Всё что ты можешь сделать - указать в заголовках диапазон в байтах, который нужно получить. И только в случае если сервер поддерживает для этой страницы опцию Ranges (а поддерживает он её скорее всего только для статичных файлов).

а потом их локально обрабатывать

Можно не потом, а сразу, через pipe:

wget https://foo.com -O - | ./get_data.sh > data

ет очень-очень долго (

Можно параллельно запросы делать.

А ещё может быть есть где-то интересующая тебя информация по нескольким объектам на одной странице.

Tanger ★★★★★
()
Ответ на: комментарий от Tanger

Файлы статичны, диапазон никак незадать там только по тегам возможно отыскать нужен мне кусок текста. Спасибо тебе Tanger !

Kytsor
() автор топика
Ответ на: комментарий от anonymous

Все установил и подключил.

Проблема с написанием кода.
Возможно задать, сначала качать инфу с файлов которые находятся?
site.com/cat1/../../здесь!
site.com/cat2/../../здесь!
site.com/cat3/../../здесь!

Вы могли бы сбросить какой-то Ваш пример скрипта самого парсинга html страниц, чтобы я мог данные подставить?

Kytsor
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.