LINUX.ORG.RU
ФорумTalks

Тролледетектор v0.0.2


0

3

по следам http://www.linux.org.ru/forum/talks/3893562
для Ъ: брался топик и отрисовывался граф сообщений, кто с кем разговаривает

в новой версии берутся все сообщения одного человека, считаются кол-во вхождений разных слов и для наиболее часто встречающихся отрисовывается облочко слов, выглядит например так:
http://img-fotki.yandex.ru/get/5803/hizel.0/0_4674d_afa30cdb_orig

сразу видно, что я freebsd-эшник

исходники: https://bitbucket.org/hizel/trololo
исполняемый файл: lor-word.py
зависимости:
dev-lang/python
dev-python/pygame
dev-python/beautifulsoup
dev-python/mechanize
dev-python/simplejson

в разаботке использовался модифицированный https://github.com/atizo/PyTagCloud

лицензионная чистота продукта не известна
чтобы по десять раз не тянуть все сообщения, на каждый уникальный nick создается файл '%s.cache' % cache

надо будет еще переделать, чтобы использовался delete_comment.jsp

★★★★★
Ответ на: комментарий от panter_dsd

ээ, откуда в зависимостях к моей программе появилось ядро!? oO
и да, УМВР - i386/amd64 gentoo

hizel ★★★★★
() автор топика

1400:jump-message.jsp?msgid=5453395&cid=5454968
Traceback (most recent call last):
File "./lor-word.py", line 126, in <module>
parse_comment_links(nick,cache)
File "./lor-word.py", line 59, in parse_comment_links
soup_comments = BeautifulSoup(comments)
File «/usr/lib/pymodules/python2.6/BeautifulSoup.py», line 1499, in __init__
BeautifulStoneSoup.__init__(self, *args, **kwargs)
File «/usr/lib/pymodules/python2.6/BeautifulSoup.py», line 1230, in __init__
self._feed(isHTML=isHTML)
File «/usr/lib/pymodules/python2.6/BeautifulSoup.py», line 1263, in _feed
self.builder.feed(markup)
File «/usr/lib/python2.6/HTMLParser.py», line 108, in feed
self.goahead(0)
File «/usr/lib/python2.6/HTMLParser.py», line 148, in goahead
k = self.parse_starttag(i)
File «/usr/lib/python2.6/HTMLParser.py», line 229, in parse_starttag
endpos = self.check_for_whole_start_tag(i)
File «/usr/lib/python2.6/HTMLParser.py», line 304, in check_for_whole_start_tag
self.error(«malformed start tag»)
File «/usr/lib/python2.6/HTMLParser.py», line 115, in error
raise HTMLParseError(message, self.getpos())
HTMLParser.HTMLParseError: malformed start tag, at line 353, column 104

ugoday ★★★★★
()
Ответ на: комментарий от ugoday

>parse_comment_links(nick,cache)

странно, у вас точно последняя версия, я эту строку в try/except оборачивал сегодня

hizel ★★★★★
() автор топика
Ответ на: комментарий от squareroot

эта часть кода из PyTagCloud, не знаю почему не дружит с 1.9.1
opensource такой opensource :-)

hizel ★★★★★
() автор топика
Ответ на: комментарий от keiner

>wm34 у этого пользователя читает все сообщения и виснет, не выдавая картинку

подтверждаю, ник - баг :-)
не может разместить для него слова

hizel ★★★★★
() автор топика
Ответ на: комментарий от hizel

нужно можно нельзя



Выложи конфу на чём собирал (версии всмысли) в 0-й пост, пожалуйста, чтоб не канючить не просить.

adriano32 ★★★
()

> в новой версии берутся все сообщения одного человека

Хм, оно наверное долго будет грузиться.

PolarFox ★★★★★
()
Ответ на: комментарий от adriano32

>Выложи конфу на чём собирал (версии всмысли) в 0-й пост, пожалуйста, чтоб не канючить не просить.

не могу редактировать

dev-lang/python-2.6.6
dev-python/pygame-1.9.1
dev-python/beautifulsoup-3.2.0
dev-python/mechanize-0.2.4
dev-python/simplejson-2.1.3

hizel ★★★★★
() автор топика
Ответ на: комментарий от ugoday

>два часа назад слил из репозитария меркуриала.

ого это оно у вас не может таблицу комментов высосать
даже и не знаю что с этим делать :-|

hizel ★★★★★
() автор топика

Отлично.
* Нормальны ли ошибки 404 в ходе работы?
* parsed 309 comments
* «<imgname>.png» сбивает с толку. я указал age.png, получил age.png.png

Чуть не забыл: все, у кого не работало - неосиляторы. В Арче я поставил 4 пакета и все заработало, потому что Арч - лучший! %)

age
()
Ответ на: комментарий от age

>* Нормальны ли ошибки 404 в ходе работы?

теоретически это сообщения из удаленных тредов

hizel ★★★★★
() автор топика
Ответ на: комментарий от keiner

>filosof - очень похоже)))

курилка, хм, давно хотел узнать кто его назвал философом, философ пишется как минимум через ph :-\

hizel ★★★★★
() автор топика
Ответ на: комментарий от frak

>У меня таких не было, хотя удалённых у меня... сам понимаешь.

я относительно недавно внедрил, раньше оно пропускало без звука 404 обшибку, а еще раньше оно у меня писало кроме кол-ва комментов еше и кол-во удаленных

hizel ★★★★★
() автор топика
Ответ на: комментарий от ugoday

>ii python-beautifulsoup 3.1.0.1-2 error-tolerant HTML parser for Python

у меня новее - 3.2.0, пока рабочая гипотеза - эта версия не подходит
если лень не замучает напишу setup.py с возможностью установки в virtualenv, чтобы запустить и оно все что надо высосасывает с интернетов

hizel ★★★★★
() автор топика
Ответ на: комментарий от lazyklimm

«юзать windows хорошо» - ниже проглядывается, хехе

yoghurt ★★★★★
()
Ответ на: комментарий от Manhunt

особенность выборки, мыслю
вот сделаю для отдельной ЛОР-овской темы, посмотрим

hizel ★★★★★
() автор топика
Ответ на: комментарий от hizel

> сразу видно, что я freebsd-эшник

Ну а я - драгонфлайщик. Вот и хочу, чтобы у меня показал драгонфлай) Кстати, это драгонфлай так безбожно тормозит или твоя прога? В среднем только 2-3 сообщения в секунду обрабатывает.

different_thing
()
Ответ на: комментарий от different_thing

>Кстати, это драгонфлай так безбожно тормозит или твоя прога?

моя программа бережет ЛОР и не бережет твой HAMMER ;-)

hizel ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.