Посчитать количество уникального слова в файле с помощью регулярки

0

1

def count_word(word):
    result = 0
    stop_world = [word, word + '.', word + '".', word + ',']
    save_file = open('output.txt', "r+")
    for word in save_file.read().split():
        if word in stop_world:          
            result += 1
    return result

Подскажите вместо этого:

stop_world = [word, word + '.', word + '".', word + ',']

регулярное выражение, пожалуйста.

Ссылка

←	Android: Activity почему не юзать MVC?

с / с++ нубский вопрос..

→

sort -u file | wc -l

powerguy ★★★
(09.12.14 21:00:37 MSK)

Ответ на: комментарий от powerguy 09.12.14 21:00:37 MSK

это конечно хорошо, но мне нужно на питоне.

amazpyel ★★★
(09.12.14 21:01:08 MSK) автор топика

http://stackoverflow.com/a/21108583

powerguy ★★★
(09.12.14 21:01:33 MSK)

Ответ на: комментарий от powerguy 09.12.14 21:01:33 MSK

да, но для счета слово 'hello', 'hello,' и 'hello.' должны быть одинаковы, поэтому нужно использовать регулярное выражение

amazpyel ★★★
(09.12.14 21:11:54 MSK) автор топика

Ответ на: комментарий от amazpyel 09.12.14 21:11:54 MSK

а если в одной строке несколько таких слов? считать число строк с уникальным словом или число таких слов?

anonymous
(09.12.14 21:17:25 MSK)

Ответ на: комментарий от amazpyel 09.12.14 21:01:08 MSK

import os
filename = "file"
os.system("sort -u %s | wc -l" % filename)

Siado ★★★★★
(09.12.14 21:17:59 MSK)

Ответ на: комментарий от amazpyel 09.12.14 21:11:54 MSK

и ещё, первый вариант слова включает в себя все остальные варианты

anonymous
(09.12.14 21:21:40 MSK)

Ссылка

Ответ на: комментарий от Siado 09.12.14 21:17:59 MSK

Гениально

powerguy ★★★
(09.12.14 21:24:47 MSK)

Ссылка

Ответ на: комментарий от anonymous 09.12.14 21:17:25 MSK

нужно посчитать количество заданного уникального слова с обмолвкой на то, что слова 'hello', 'hello,' и 'hello.' тоже нужно считать.

amazpyel ★★★
(09.12.14 21:25:11 MSK) автор топика

Ответ на: комментарий от Siado 09.12.14 21:17:59 MSK

круто, че.

amazpyel ★★★
(09.12.14 21:25:40 MSK) автор топика

Ссылка

В job.

aedeph_ ★★
(09.12.14 21:25:48 MSK)

Ссылка

Ответ на: комментарий от amazpyel 09.12.14 21:25:11 MSK

import re

def count_word(word):
    def cnt(x):
        return len(re.findall(word, x))
    return sum(map(cnt, open('output.txt')))

anonymous
(09.12.14 21:26:30 MSK)

Ссылка

питон не знаю, но должно работать

/word[.",]?/g

в JS рботает:


re=/word[.",]?/g
s='foowordfoobarword,fooword"foobar'
w(s.match(re))

~~J-yes-sir~~
(09.12.14 21:32:49 MSK)

Ответ на: комментарий от J-yes-sir 09.12.14 21:32:49 MSK

//  [ 'word', 'word,', 'word"' ]

забыл вывод скопировать

//fixed

~~J-yes-sir~~
(09.12.14 21:34:24 MSK)

Ссылка

Чтоб не заводить две темы про питонорегулярки можно я спрошу и свой вопрос
Надо вытащить числа из лога в виде
MARKER[1234]
MARKER[654321]
Почему не работает регулярка

(?=MARKER\[)[0-9]{1,10}(?<=\])

zolden ★★★★★
(09.12.14 21:37:44 MSK)

Ответ на: комментарий от zolden 09.12.14 21:37:44 MSK

а почему не так?

#!/usr/bin/env python3

import re

text = '''MARKER[1234]
MARKER[654321]'''

print(re.findall('MARKER\[([0-9]*)\]', text))

anonymous
(09.12.14 21:40:37 MSK)

Ссылка

Ответ на: комментарий от zolden 09.12.14 21:37:44 MSK

r'regex' дабы \ не обрабатывались как спецсимволы?

anonymous
(09.12.14 21:41:21 MSK)

А, да, сразу не заметил, у тебя там ". тогда сложней. но вообще, для твоей задачи, по моему, пойдет просто

/word/g

они все будут матчится по нему.

~~J-yes-sir~~
(09.12.14 21:43:21 MSK)

Ссылка

Ответ на: комментарий от anonymous 09.12.14 21:41:21 MSK

надо вытащить только числовые айдишки, маркер и скобки не нужны

zolden ★★★★★
(09.12.14 21:51:05 MSK)

Ссылка

Ответ на: комментарий от zolden 09.12.14 21:37:44 MSK

или в твоем варианте:

#!/usr/bin/env python3

import re

text = '''MARKER[1234]
MARKER[654321]'''

print(re.findall('(?<=MARKER\[)([0-9]{1,10})(?=\])', text))

anonymous
(09.12.14 22:00:29 MSK)

Ответ на: комментарий от anonymous 09.12.14 22:00:29 MSK

OH SHI...спасибо

zolden ★★★★★
(09.12.14 22:13:03 MSK)

Ссылка

Ответ на: комментарий от zolden 09.12.14 21:37:44 MSK

>>> [s[7:-1] for s in re.findall('MARKER\[\d{1,10}\]', 'MARKER[1234]\nMARKER[654321]')]
['1234', '654321']
>>>

Virtuos86 ★★★★★
(09.12.14 22:23:58 MSK)

Ответ на: комментарий от Virtuos86 09.12.14 22:23:58 MSK

ого, где почитать как это работает?
везде только про префиксные и постфиксные проверки написано, а как тут не матчится сам маркер?

zolden ★★★★★
(09.12.14 22:52:55 MSK)

Ответ на: комментарий от zolden 09.12.14 22:52:55 MSK

s[7:-1]

anonymous
(09.12.14 22:53:58 MSK)

Ссылка

Ответ на: комментарий от zolden 09.12.14 22:52:55 MSK

про префиксные и постфиксные

а это почему не устроило?

почитать лучше тут

anonymous
(09.12.14 22:56:02 MSK)

Ответ на: комментарий от zolden 09.12.14 22:52:55 MSK

Ты питон-то хорошо знаешь?
Я такую фигню, наверное, вообще бы без регулярок написал. Для разминки моска, да и не умею я в них, если честно.

Virtuos86 ★★★★★
(09.12.14 22:57:40 MSK)

Ответ на: комментарий от Virtuos86 09.12.14 22:57:40 MSK

Ты питон-то хорошо знаешь?

3й день изучаю

zolden ★★★★★
(09.12.14 23:05:19 MSK)

Ответ на: комментарий от anonymous 09.12.14 22:56:02 MSK

а это почему не устроило?

Аа, теперь понял хитрость с группировкой, это тоже норм, спасибо

zolden ★★★★★
(09.12.14 23:06:09 MSK)

Ссылка

Ответ на: комментарий от zolden 09.12.14 23:05:19 MSK

тогда по поводу подстроки искать так: python слайс

anonymous
(09.12.14 23:07:12 MSK)

Ссылка

Ответ на: комментарий от zolden 09.12.14 23:05:19 MSK

Тогда нормально, успехов в изучении.

Virtuos86 ★★★★★
(09.12.14 23:19:59 MSK)

Ссылка

import re
from collections import Counter

text = "Blah, blah, blah text."

raw_words = re.findall(r"[\w']+", text)
words = map(str.lower, raw_words)
freq = Counter(words)
print freq

silw ★★★★★
(09.12.14 23:40:35 MSK)

Ответ на: комментарий от silw 09.12.14 23:40:35 MSK

Спасибо, теперь буду курить регулярные выражения.

amazpyel ★★★
(10.12.14 12:59:45 MSK) автор топика

Ссылка

Решение:

import re
from collections import Counter


def count_word(word):
    result = 0
    save_file = open('output.txt', "r+")
    for word in save_file.read().split():
        raw_words = re.findall(r"[\w']+", word)
        words = map(str, raw_words)
        freq = Counter(words)
        if freq.get(word) is not None:
            result += freq.get(word)
    return result

Спасибо, silw

amazpyel ★★★
(10.12.14 13:04:14 MSK) автор топика

Ответ на: комментарий от amazpyel 10.12.14 13:04:14 MSK

def count_word(word):
...
    for word in save_file.read().split():
        raw_words = re.findall(r"[\w']+", word)
...
        if freq.get(word) is not None:
            result += freq.get(word)

anonymous
(10.12.14 13:15:14 MSK)

Ответ на: комментарий от amazpyel 10.12.14 13:04:14 MSK

if word in freq:

silw ★★★★★
(10.12.14 13:51:27 MSK)

Ответ на: комментарий от amazpyel 10.12.14 13:04:14 MSK

if freq.get(word) is not None:

if freq.get(word):

хотя в данном случае правильнее как выше написали

anonymous
(10.12.14 14:02:42 MSK)

Ответ на: комментарий от anonymous 10.12.14 13:15:14 MSK

да, это я тут ошибся, у меня на входе searched_word

amazpyel ★★★
(10.12.14 14:11:55 MSK) автор топика

Ссылка

Ответ на: комментарий от silw 10.12.14 13:51:27 MSK

еще мне подсказали, что использовать регулярки внутри цикла не очень хорошо, поэтому вот окончательное решение:

import re
from collections import Counter


def count_word(searched_word):
    result = 0
    save_file = open('output.txt', "r+")
    regex = re.compile(r"[\w']+")
    for word in save_file.read().split():
        raw_words = regex.findall(word)
        words = map(str, raw_words)
        freq = Counter(words)
        if searched_word in freq:
            result += freq.get(searched_word)
    return result

amazpyel ★★★
(10.12.14 14:20:17 MSK) автор топика

Ответ на: комментарий от anonymous 10.12.14 14:02:42 MSK

спасибо

amazpyel ★★★
(10.12.14 14:21:16 MSK) автор топика

Ссылка

Ответ на: комментарий от amazpyel 10.12.14 14:20:17 MSK

map(str,...) в данном контексте немного бессмысленно, так как findall и так возвращает список str. А str.lower из предыдуших вариантов - приведение к нижнему регистру, чтобы не различать Hello и hello.

silw ★★★★★
(10.12.14 15:26:34 MSK)

Ссылка

Ответ на: комментарий от amazpyel 10.12.14 14:20:17 MSK

ну и как-то сложно, цикл и split тут не нужны, проще просто readlines(). Ну либо читать файл построчно.

silw ★★★★★
(10.12.14 15:30:22 MSK)

Ответ на: комментарий от silw 10.12.14 15:30:22 MSK

Собственно, можно обойтись без мапы и коллекции, а просто добавить установить re.IGNORECASE :

file_count = re.findall(word, file.readline(), re.IGNORECASE)

(в цикле)

amazpyel ★★★
(10.12.14 17:58:47 MSK) автор топика
Последнее исправление: amazpyel 10.12.14 18:03:53 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Android: Activity почему не юзать MVC?

Development

с / с++ нубский вопрос..

→

Похожие темы