Наколеночный скрипт Python

beautifullsoup, python, говнокод, парсинг веб-страниц

1

1

В продолжение прошлой темы, я, как любитель K&R C Book, накропал вот такой «наколеночный» говнокод,

чтобы парсить исходники из глав (сорцы внутри тега pre).

Прошу спецов по Питону его усовершенствовать, т.к. с Цирко-Змеем практически не знаком.

Код


#!/usr/bin/python
import sys
from bs4 import BeautifulSoup

 

soup = BeautifulSoup(open(sys.argv[1],'r'))
foutput = open(sys.argv[2],'w')
y = soup.find_all('pre') 
for a in y:
	z = a.string
	foutput.write(z)

Ссылка

←	iOS/Android/Web/Desktop

Трагедия CommonLisp

→

← 1 2 →

Ответ на: комментарий от anonymous 20.06.15 20:28:31 MSK

Крутая юниксвейная библиотека)

Не ты ли сам автор?

~~Twissel~~ ★★★★★
(20.06.15 21:47:15 MSK) автор топика

Ответ на: комментарий от Twissel 20.06.15 21:47:15 MSK

Нет, я бы не догадался до такого.

anonymous
(20.06.15 21:51:37 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.06.15 14:47:29 MSK

Как по этому словарю, корректно пройтись?

Я немного запутался =)

~~Twissel~~ ★★★★★
(21.06.15 00:10:27 MSK) автор топика

Ответ на: комментарий от Twissel 21.06.15 00:10:27 MSK

Должно быть нечто похожее на

for key, value in args['<output>']

~~Twissel~~ ★★★★★
(21.06.15 00:21:56 MSK) автор топика

Ответ на: комментарий от Twissel 21.06.15 00:21:56 MSK

for key, value in zip(args['<input>'], args['<output>'])

anonymous
(21.06.15 06:04:16 MSK)

Ответ на: комментарий от t184256 19.06.15 11:59:21 MSK

504 Gateway Time-out

hobbit ★★★★★
(21.06.15 08:38:24 MSK)

Ответ на: комментарий от anonymous 21.06.15 06:04:16 MSK

Получилось такое

#!/usr/bin/python
"""
Usage: script.py (<input> <output>)...
"""
from docopt import docopt
from bs4 import BeautifulSoup

args = docopt(__doc__)
for key, value in zip(args['<input>'], args['<output>']):
	soup = BeautifulSoup(open(key, 'r'))
	foutput = open(value, 'w')
	y = soup.find_all('pre')
	for a in y:
            z = a.string
	    foutput.write(z)

Вызывается вот так

./parse3.py ch1kr.html ch1kr.c ch2kr.html ch2kr.c

И ругается, по-моему известной ошибкой

File "./parse3.py", line 16, in <module>
    foutput.write(z)
UnicodeEncodeError: 'ascii' codec can't encode character u'\u2013' in position 6: ordinal not in range(128)

Я так понимаю, из-за нее скрипт не обрабатывает вторую пару аргументов?

Или я чего то не понял с вложенной итерацией по списку содержимого тегов.

Что делать?

~~Twissel~~ ★★★★★
(21.06.15 08:57:27 MSK) автор топика

Ответ на: комментарий от hobbit 21.06.15 08:38:24 MSK

Таки да, он прилег

~~Twissel~~ ★★★★★
(21.06.15 08:59:14 MSK) автор топика

Ссылка

Неа, Суп почему-то парсит только первые несколько тегов pre

Как это дело причешем надо будет другой парсер попробовать (((

~~Twissel~~ ★★★★★
(21.06.15 09:43:27 MSK) автор топика

Ссылка

Ответ на: комментарий от Twissel 21.06.15 08:57:27 MSK

Может он крашится из-за комментариев на русском внутри тега, в кодировке CP-1251.

Скорее всего...

~~Twissel~~ ★★★★★
(21.06.15 09:53:37 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 20.06.15 14:47:29 MSK

Короче говоря, вот сама разметка https://dl.dropboxusercontent.com/u/50518517/kr_cbook.zip

Будет желание посмотри, что там не того... а на нет и суда нет, если что ;-)

А я попозже сам еще с этой фигней помучаюсь.

~~Twissel~~ ★★★★★
(21.06.15 10:13:04 MSK) автор топика

Ответ на: комментарий от Twissel 21.06.15 10:13:04 MSK

#!/usr/bin/python
"""
Usage: script.py (<input> <output>)...
"""
from docopt import docopt
from bs4 import BeautifulSoup

args = docopt(__doc__)
for key, value in zip(args['<input>'], args['<output>']):
    soup = BeautifulSoup(open(key, 'r'))

    with open(value, 'w') as output:
        for pre in soup.find_all('pre'):
            if not pre.string:
                continue

            output.write(pre.string.encode('utf-8'))

anonymous
(21.06.15 11:57:47 MSK)

Ответ на: комментарий от anonymous 21.06.15 11:57:47 MSK

Все работает.

Большое спасибо за помощь, все парсится без проблем.

Жаль, что не могу нынче помочь рублём)))

~~Twissel~~ ★★★★★
(21.06.15 12:18:15 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 21.06.15 11:57:47 MSK

Просто пожелаю удачи во всех начинаниях и хорошего летнего отпуска)))

~~Twissel~~ ★★★★★
(21.06.15 14:12:57 MSK) автор топика

Ссылка

Если кому интересно, реализуйте такой же парсер на sed, хочу глянуть как это будет выглядеть.

Действительно, кодинг на Питоне (пусть даже без необходимых знаний и под «пинками» ЛОРовцев) доставляет особое эстетическое удовольствие :-D

~~Twissel~~ ★★★★★
(21.06.15 14:16:06 MSK) автор топика
Последнее исправление: Twissel 21.06.15 14:16:34 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	iOS/Android/Web/Desktop

Development

Трагедия CommonLisp

→

Все работает.

Похожие темы