LINUX.ORG.RU
ФорумTalks

Тролледетектор v0.0.2


0

3

по следам http://www.linux.org.ru/forum/talks/3893562
для Ъ: брался топик и отрисовывался граф сообщений, кто с кем разговаривает

в новой версии берутся все сообщения одного человека, считаются кол-во вхождений разных слов и для наиболее часто встречающихся отрисовывается облочко слов, выглядит например так:
http://img-fotki.yandex.ru/get/5803/hizel.0/0_4674d_afa30cdb_orig

сразу видно, что я freebsd-эшник

исходники: https://bitbucket.org/hizel/trololo
исполняемый файл: lor-word.py
зависимости:
dev-lang/python
dev-python/pygame
dev-python/beautifulsoup
dev-python/mechanize
dev-python/simplejson

в разаботке использовался модифицированный https://github.com/atizo/PyTagCloud

лицензионная чистота продукта не известна
чтобы по десять раз не тянуть все сообщения, на каждый уникальный nick создается файл '%s.cache' % cache

надо будет еще переделать, чтобы использовался delete_comment.jsp

★★★★★
Ответ на: комментарий от hizel

я конечно понимаю, что true-lor-man нигде кроме ЛОРа не пишет, но можно же сделать исключение, напрячься и запостить issue мне на bitbucket :-(

hizel ★★★★★
() автор топика

>отрисовывается облочко слов, выглядит например так:

Блин, красиво. Хоть на футболке печатай

DNA_Seq ★★☆☆☆
()

добавил в stop word «можно, просто»
переименовал lor-word.py в lorparser.py
исключил из отпечатка цитирование

hizel ★★★★★
() автор топика

Интересно, можно - это «можно сделать» итп или кусок от «можно для Ъ», а нужно - это «нужно сделать» итп или кусок от «не нужно, закопайте»? ;)

hizel, а ты не кинешь в меня камень, если я спрошу, есть ли на ЛОРе каунтер постов за сутки и рейтинг, кто больше нафлудил за сутки?

adriano32 ★★★
()
Ответ на: комментарий от adriano32

adriano32> можно - это «можно сделать» итп или кусок от «можно для Ъ»

Нет, это от "- можно в линуксе сделать ...? - можно, я разрешаю".

vurdalak ★★★★★
()
Ответ на: комментарий от hizel

для десктопа дома и на работе у меня стоит gentoo

Странно как-то.

JJackFLASH ★★
()

почему-то завалилось:


parse 359 comments
Traceback (most recent call last):
File "./lorparser.py", line 136, in <module>
create_image(cache, imgname)
File "./lorparser.py", line 120, in create_image
crop=False
File «/home/kvitaliy/TEMP/hizel-trololo-41bf69570f4e/pytagcloud/__init__.py», line 264, in create_tag_image
tag_store = _draw_cloud(tags, image_surface, layout, fontname=fontname, palette=palette, fontzoom=fontzoom, rectangular=rectangular)
File «/home/kvitaliy/TEMP/hizel-trololo-41bf69570f4e/pytagcloud/__init__.py», line 230, in _draw_cloud
currentTag = Tag(tag, (0, 0), rot, fontname=fontname, fontzoom=fontzoom)
File «/home/kvitaliy/TEMP/hizel-trololo-41bf69570f4e/pytagcloud/__init__.py», line 70, in __init__
self.mask = self.mask.convolve(CONVMASK, None, (TAG_PADDING, TAG_PADDING))
AttributeError: convolve

kvitaliy
()
Ответ на: комментарий от vurdalak

эта программа легко преобразовывается для обработки текстового любого файла , и да, есть wordle.net

hizel ★★★★★
() автор топика

Сделайте для меня, пожалуйста. Со скоростью 200 кмнт/ч я состариться успею :(

GotF ★★★★★
()
Ответ на: комментарий от ky-san

>xpath не используешь из принципа?

исторически

hizel ★★★★★
() автор топика
Ответ на: комментарий от GotF

У меня дома 8 Мбит/с, но ЛОР столько не отдаёт. И оно затыкалось наглухо раз десять :( Благо после прибивания и повторного запуска оно перечитывает свой кэш и продолжает с того места, где его застигло.

И да, «можно», «просто» и т. д.

Xenesz ★★★★
()
Ответ на: комментарий от Xenesz

мбит\с не важны, важен отклик от сервера, грубо говоря сколько пинг до ЛОРа, ну и производительность ядра процессора %-)
у меня дома занимает ~120КБайт\с(~1Мбит/c) не упираясь в процессор

hizel ★★★★★
() автор топика

и зачем я поленился сразу указать версии :-(
я добавил в исходники типа setup.py

теперь для не gentoo и arch, например для старых debian можно сделать

тут trololo исходники, shell - bash

cd trololo
virtualenv --no-site-packages /tmp/trololo-env
source /tmp/trololo-env/activate
python setup.py build
python setup.py install
./lorparser.py <nick> <imgname>

все в одной консоли

hizel ★★★★★
() автор топика
Ответ на: комментарий от hizel

>мбит\с не важны, важен отклик от сервера

Что лучше, когда пинг 400мс на канале 32 кбит/с или когда пинг 2000мс на канале 20Мбит/с? :)

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

>Что лучше, когда пинг 400мс на канале 32 кбит/с или когда пинг 2000мс на канале 20Мбит/с? :)

это риторический вопрос? :-)
лучше для чего?

пинг 2000мс на канале 20Мбит/с


похоже на спутниковую связь :-|

hizel ★★★★★
() автор топика
Ответ на: комментарий от matich

>анонимуса

Да ты с дуба рухнул. Прикинь, сколько сообщений придётся парсить?

frak
()
Ответ на: комментарий от frak

спасибо) можешь просить что-либо кроме ню фотки

isako ★★★
()
Ответ на: комментарий от frak

обнови парсер, я «просто можно» в stop засунул и убрал из выборки цитирование

hizel ★★★★★
() автор топика
Ответ на: комментарий от matich

тест заголовка

он проверяет число вхождений для разных stop word-ов и кто чаще встречается то и отрезает, видимо надо урезать все сразу

hizel ★★★★★
() автор топика

исправил stop слова - теперь учитываются сразу два языка (англицкий, русский)
исключил из индексации заголовок комментария

hizel ★★★★★
() автор топика
Ответ на: комментарий от hizel

теперь мне для всех кому делал перегенирировать картинки? :-(

hizel ★★★★★
() автор топика
Ответ на: комментарий от hizel

да, изменился кэш, теперь туда суется весь кусок html комментария
и вырезка ненужного происходит на этапе генерации картинки
как минимум теперь не предется при каждой новой версии тащить все комментарии по новой

hizel ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.