LINUX.ORG.RU
ФорумTalks

Тролледетектор v0.0.2


0

3

по следам http://www.linux.org.ru/forum/talks/3893562
для Ъ: брался топик и отрисовывался граф сообщений, кто с кем разговаривает

в новой версии берутся все сообщения одного человека, считаются кол-во вхождений разных слов и для наиболее часто встречающихся отрисовывается облочко слов, выглядит например так:
http://img-fotki.yandex.ru/get/5803/hizel.0/0_4674d_afa30cdb_orig

сразу видно, что я freebsd-эшник

исходники: https://bitbucket.org/hizel/trololo
исполняемый файл: lor-word.py
зависимости:
dev-lang/python
dev-python/pygame
dev-python/beautifulsoup
dev-python/mechanize
dev-python/simplejson

в разаботке использовался модифицированный https://github.com/atizo/PyTagCloud

лицензионная чистота продукта не известна
чтобы по десять раз не тянуть все сообщения, на каждый уникальный nick создается файл '%s.cache' % cache

надо будет еще переделать, чтобы использовался delete_comment.jsp

★★★★★

Ответ на: комментарий от frak

вот это переделаю

если запал не иссякнет, хочу сделать хронологическое видео :-)

hizel ★★★★★
() автор топика
Ответ на: комментарий от hizel

>это для старых скриптов, там для graphviz генерировался выхлоп

Да, это я не тот скрипт запускал.

...

Кто-то тут сетовал на отсутствие бзди под рукой. Под гентой тоже все работает, а значит и под другими линупсами взлетит.

staseg ★★★★★
()
Ответ на: комментарий от staseg

я использую freebsd только на серверах и маршрутизаторах ;-)
для десктопа дома и на работе у меня стоит gentoo

hizel ★★★★★
() автор топика
Ответ на: комментарий от adriano32

оно уже в этих исходниках, по хорошему я попозже пошлю автору свои изменения, у него с русским языком не дружило и utf8 не кушало

hizel ★★★★★
() автор топика
Ответ на: комментарий от hizel

Прикольная игрушка:) Удобно, чтобы выискать в себе слова-паразиты.

Выкачивалось неспеша, а проц жужжал как бешеный. Питон такой питон.

Фичреквест на занять свободное время: детектить одинаковые слова в разных формах; игнорировать строки комментариев в обсчитываемых сообщениях, если сейчас этого не делается.

//Топ4: можно спасабо, просто нужно.

staseg ★★★★★
()
Ответ на: комментарий от staseg

это из-за .cache, задача решена влоб, о производительности не думали, да и если будет слишком быстро работать, maxcom может принять за бота и зобанить :-)

про комментарии помню, одинаковые слова - это как по умному называется? чтобы загуглить

hizel ★★★★★
() автор топика
Ответ на: комментарий от lognur

Баш считает, что питон у тебя не установлен. Классная аватарка.

folone
()
Ответ на: комментарий от hizel

У меня вот распарсило 88 сообщений, и упало:

Traceback (most recent call last):
  File "lor-word.py", line 122, in <module>
    parse_comment_links(nick,cache)
  File "lor-word.py", line 68, in parse_comment_links
    cache[key] = parse_comment(cl['href'])
  File "lor-word.py", line 32, in parse_comment
    comment_b = comment.find('div', {'class': 'msg_body message-w-userpic'})
AttributeError: 'NoneType' object has no attribute 'find'

folone
()
Ответ на: комментарий от folone

вообще странно, вон у меня Manhunt-а сообщения уже скоро за 4000 распарсит и не единого разрыва (c)
подозреваю нестабильные интернеты

hizel ★★★★★
() автор топика
$ ./lor-word.py adriano32 out.png
Traceback (most recent call last):
  File "./lor-word.py", line 8, in <module>
    from pytagcloud import create_tag_image, LAYOUTS, make_tags
  File "/home/maintainer/admins/adriano32/trololo/pytagcloud/__init__.py", line 4, in <module>
    from pygame import transform, font, mask, Surface, Rect, SRCALPHA, draw
ImportError: cannot import name mask
$

Где я наслоупучил? python2.5, lenny, зависимости поставил вроде.

adriano32 ★★★
()
Ответ на: комментарий от adriano32

>Где я наслоупучил? python2.5, lenny, зависимости поставил вроде.
не знаю, какой-то у вас pygame неправильный, может еще чего доставить нужно, у меня версия pygame 1.9.1

hizel ★★★★★
() автор топика
Ответ на: комментарий от lognur

>Кстати а куда папку pytagcloud засунуть надо? В /usr/lib/python 2.7 например?
пусть лежит где лежит, зачем ее двигать?

hizel ★★★★★
() автор топика
  File "./lor-word.py", line 8, in <module>
    from pytagcloud import create_tag_image, LAYOUTS, make_tags
  File "/home/kirill/troll/pytagcloud/__init__.py", line 4, in <module>
    from pygame import transform, font, mask, Surface, Rect, SRCALPHA, draw
ImportError: No module named pygame

Ну что за фигня? pygame установлен.

lognur
()

С моими интернетами и 11k комментариев ждать буду до вечера, пока выполнится %)

GotF ★★★★★
()
Ответ на: комментарий от hizel

Сатбильно на одном и том же комменте затыкается, так что интернеты нормальные.

Artificial_Thought ★★★★
()
Ответ на: комментарий от lognur

>Ну что за фигня? pygame установлен.
судя по вашим предыдущим сообщениям
для какого пистона? может у вас основной 3.2 и pygame для 3.2

hizel ★★★★★
() автор топика
Ответ на: комментарий от JFreeM

>у меня интернеты шустрые, но оно тааак медленно грузит отчего-то.

зато ЛОР не устанет ;-)

hizel ★★★★★
() автор топика
Ответ на: комментарий от JFreeM

Гм, у меня тоже не использует всю ширину канала, судя по графику скорости. Причём часто тупо останавливается и чего-то ждёт. Минут десять уже прошло, а только 55 сообщений.

GotF ★★★★★
()
Ответ на: комментарий от GotF

я хотел переделать на delte_comment.jsp, но он не работает для ананимуса, поэтому работает как есть
идет по ссылке jump-message.jsp, с нее редирект и т.д.
так что скорость = скорость хрумканья mechanize этих редиректов
не вижу смысла ускорять

hizel ★★★★★
() автор топика
Ответ на: комментарий от JFreeM

>странно, но никаких sleep я там не нашел :(

их нет

hizel ★★★★★
() автор топика
Ответ на: комментарий от folone

>https://appengine.google.com/
я там мгновенно уткнусь в лимиты, мне кажется
да и не очень возбуждает, в конце концов если очень прижмет я сам себя могу сервер выделить :-)

hizel ★★★★★
() автор топика

Подкрути для 3 пистона. Пишет :

File "./troll/lor-word.py", line 22
    print 'invalid lnk'
                      ^
SyntaxError: invalid syntax

А то я пистон не знаю. :(

lognur
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.