LINUX.ORG.RU

не думаю что в войне и мире есть штош, денегнет, ипотека и кредит так что выборка будет не актуальной :-)

rukez ★★★★
()

с Войной и миром ты получишь только самые распространённые слова русской интеллигенции 19-го века.

но есть бонус - самые распространённые _французские_ слова русской интеллигенции 19-го века %))

metawishmaster ★★★★★
()

есть подоздрение, что наиболее часто употреблямые слова могут оказаться трехбуквенными, если мы не говорим о литературном языке :)

EugeneBas ★★
()

Чтобы что? Главное же не употребление, а смысл. Как ты собираешься писать бота без фундаментального понимания языка?

anonymous
()

А какой сегмент языка исследовать?

peregrine ★★★★★
()

semrush.com

Может это оно? В гугле есть триал на 30 дней.

Aspid
()

google://"частотный словарь"

akk ★★★★★
()
Последнее исправление: akk (всего исправлений: 1)

Где взять словарь наиболее употребляемых русских слов?

ЛОР в своем репертуаре …
Погуглите «Войну и мир разбить, на слова, отсеять коросче трех символов и посчитать количество вхождений для каждого, потом отсортировать? Может готовое есть?»

anonymous
()

Где взять словарь наиболее употребляемых русских слов?

Все зависит от тематике книги.
Например про отбойные молотки чаше всего будет встречаться слово - «молоток».

anonymous
()
Ответ на: комментарий от slowpony
~/Documents 
❯ tail -n +2 freqrnc2011.csv| shuf -n5 | cut -d'        ' -f1 | xargs
защищаться неудачник подкрашивать вороний непотребство
tz4678 ★★
() автор топика

Может готовое есть?

Что тебе «готовое»? Куда может быть готовее? Ты скоро будешь вопрошать, «а чтобы посцать надо искать унитаз, открывать крышку и снимать штаны? Может что-то готовое есть?»

//nodejs
var txt = readFileSync("Война и мир.txt").toString();
var words = txt.replace(/[\.,;]/g,"").split(" ").map(v=>v.trim().toLowerCase());
var cnt = words.reduce((s,v)=>{
   s[v] = s[v] || {count : 0};
   s[v].count++;
   return s
}, {});
var top = Object.values(cnt).sort((a,b)=>a.count - b.count);
writeFileSync("Топ 100.txt", top.slice(0,100));

На любом язычке это кодится быстрее, чем ты писал пост на ЛОР.

crutch_master ★★★★★
()
Последнее исправление: crutch_master (всего исправлений: 2)

смотри например «Словарь синонимов В.Н.Тришина»

программа под винду с MS Access базой

там частотный словарь синонимов по частоте словоупотребления

anonymous
()

Где взять словарь наиболее употребляемых русских слов?

идиотизм

Войну и мир разбить, на слова

исходный корпус текстов какой? из разного набора будут разные «наиболее употребимые» получаться

anonymous
()
Ответ на: комментарий от crutch_master
Python 3.9.5 (default, Jun  7 2021, 11:59:18) 
[GCC 11.1.0] on linux
Type "help", "copyright", "credits" or "license()" for more information.
>>> with open('/home/sergey/Documents/Война и мир.txt') as f:
	contents = f.read()

	
>>> import re
>>> words = re.split(r'\W+', contents)
>>> import collections
>>> c = collections.Counter(filter(lambda x: len(x) > 3, words))
>>> list(c.most_common(10))
[('было', 2485), ('сказал', 2016), ('только', 1484), ('Пьер', 1401), ('чтобы', 989), ('князь', 949), ('того', 923), ('сноска', 923), ('него', 913), ('была', 902)]
>>> 
tz4678 ★★
() автор топика
Ответ на: комментарий от anonymous

версия 7.3 от 30.01.2012 (может, в новой уже поболее)

составитель В.Н. Тришин

слов 416039

синонимических связей 1756603

anonymous
()
Ответ на: комментарий от anonymous
~ 
❯ cat ~/Documents/Война\ и\ мир.txt | python -c 'import sys,re,collections; print(*(pair[0] for pair in collections.Counter(filter(lambda w: len(w) > 5, re.split("\W+", sys.stdin.read()))).most_common(10)))'
сказал только сноска Наташа теперь Андрей сказала которые говорил который
tz4678 ★★
() автор топика
Ответ на: комментарий от tz4678

1.Ты задачу свою решил?
2.Я ничего не вижу про поручика в твоём выхлопе, проверь код. XD

круче

3.Скриптуха дёргает либы.

crutch_master ★★★★★
()
Последнее исправление: crutch_master (всего исправлений: 1)
Ответ на: комментарий от tz4678

а что ты делаешь-то?

вообще, интересно.

если тупо выбирать марковские цепи на самых частотных словоупотреблениях (например, насколько бредогенератор бредоносный получается?

если например из войны и мира бредогенератор запилить?

anonymous
()
$a = (gc ./vm.txt -raw) -replace '\b\S{1,3}\b',' ' -split '[\s\W]+' |
    Group-Object |
    Sort-Object Count -desc

$a[0..9] | ft Count,Name

Count Name
----- ----
  377 князь
  372 сказал
  256 было
  201 Андрей
  195 только
  178 Пьер
  158 сказала
  149 Очень
  144 vous
  142 меня

anonymous
()
Ответ на: комментарий от anonymous

на питоне елдой обойтись можно

tz4678 ★★
() автор топика
Ответ на: комментарий от anonymous

Я сейчас попробовал марковские цепи сделать (код, возможно, неправильный ибо я во всей этой околоматематике нуб):

# coding: utf-8
from collections import Counter, defaultdict
from typing import DefaultDict, Iterable, Sequence, Union
import random
import re
import sys


def pairs(seq: Sequence[str]) -> Iterable[tuple[str, str]]:
    for i in range(1, len(seq)):
        yield seq[i - 1], seq[i]


def markov(seq: Sequence[str]) -> DefaultDict[str, Union[DefaultDict[str, float], dict[str, float]]]:
    counters = defaultdict(Counter)
    for state, next in pairs(seq):
        counters[state][next] += 1
    probabilities = defaultdict(lambda: defaultdict(float))
    for state, counter in counters.items():
        total = sum(counter.values())
        probabilities[state] = {k: v / total for k, v in counter.items()}
    return probabilities


def generate(init_state: str, seq: Sequence[str], n: int=5) -> Iterable[str]:
    chain = markov(seq)
    state = init_state
    for i in range(n):
        yield state
        d = chain[state]
        state, = random.choices(list(d.keys()), d.values())



if __name__ == '__main__':
    with open(sys.argv[1]) as fp:
        contents = fp.read()
    words = re.findall(r'\b\S+\b', contents.lower())
    print(*generate(sys.argv[2], words))

Проверка:

❯ python markov.py ~/Documents/Books/Onegin.txt 'дом' 
дом селенье рощу под видом

~/workspace via 🐍 v3.9.5 
❯ python markov.py ~/Documents/Books/Onegin.txt 'онегин' 
онегин вы легкомыслия страстей и

~/workspace via 🐍 v3.9.5 
❯ python markov.py ~/Documents/Books/Onegin.txt 'вино'   
вино шипит и сердца факел
tz4678 ★★
() автор топика
Ответ на: комментарий от tz4678

а самое удивительное, что питон почти не жрет память. на хранение всех этих переходов между словами для структуры используется 294 килобайта памяти (sizeof), столько же сколько для текста

tz4678 ★★
() автор топика

Где взять словарь наиболее употребляемых русских слов?

На заборе

Psilocybe ★★★★★
()

Где взять словарь наиболее употребляемых русских слов?

На ЛОР конечно …
Первое место занимает

не нужно
anonymous
()
Ответ на: комментарий от anonymous

отсеять коросче трех символов

это так не работает

peregrine ★★★★★
()

Там яшка как раз на днях что-то выкладывал, погугли

peregrine ★★★★★
()

И это, если с книжек набирать, то надо не одну смотреть, а сразу много и разнообразных, добавляя ещё и тексты с форумов

peregrine ★★★★★
()
Последнее исправление: peregrine (всего исправлений: 1)

Войну и мир разбить, на слова …

Зачем?
Лучше уж тогда «Большую Советскую Энциклопедию» …
А может просто качнуть какой-нибудь Либрусек и 1000000 книг проанализировать.

anonymous
()
Ответ на: комментарий от anonymous

слова относящиеяс к опр специфике проще запомнить (генерируем пароль из случайных слов)

поймешь о чем я

tz4678 ★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.