Где взять словарь наиболее употребляемых русских слов?

не думаю что в войне и мире есть штош, денегнет, ипотека и кредит так что выборка будет не актуальной :-)

rukez ★★★★
(04.06.21 15:20:34 MSK)

Ссылка

http://dict.ruslang.ru/freq.php

monk ★★★★★
(04.06.21 15:23:45 MSK)

Ссылка

с Войной и миром ты получишь только самые распространённые слова русской интеллигенции 19-го века.

но есть бонус - самые распространённые _французские_ слова русской интеллигенции 19-го века %))

metawishmaster ★★★★★
(04.06.21 15:26:03 MSK)

Ссылка

http://bokrcorpora.narod.ru/frqlist/frqlist.html

anonymous
(04.06.21 15:29:17 MSK)

Ссылка

есть подоздрение, что наиболее часто употреблямые слова могут оказаться трехбуквенными, если мы не говорим о литературном языке :)

EugeneBas ★★
(04.06.21 15:34:42 MSK)

Чтобы что? Главное же не употребление, а смысл. Как ты собираешься писать бота без фундаментального понимания языка?

anonymous
(04.06.21 15:35:48 MSK)

Ссылка

А какой сегмент языка исследовать?

peregrine ★★★★★
(04.06.21 16:58:49 MSK)

Ссылка

https://ru.m.wikipedia.org/wiki/Русский_мат - оно?

anonymous
(04.06.21 18:45:30 MSK)

Ссылка

semrush.com

Может это оно? В гугле есть триал на 30 дней.

Aspid
(04.06.21 19:22:20 MSK)

Ссылка

Ответ на: комментарий от EugeneBas 04.06.21 15:34:42 MSK

Ты про язык рабочих?)

KoDeMa
(04.06.21 19:23:44 MSK)

Ответ на: комментарий от KoDeMa 04.06.21 19:23:44 MSK

Можно это и так назвать (:

EugeneBas ★★
(04.06.21 20:00:09 MSK)

Ссылка

google://"частотный словарь"

akk ★★★★★
(04.06.21 20:37:59 MSK)
Последнее исправление: akk 04.06.21 20:38:40 MSK (всего исправлений: 1)

Ссылка

Где взять словарь наиболее употребляемых русских слов?

ЛОР в своем репертуаре …
Погуглите «Войну и мир разбить, на слова, отсеять коросче трех символов и посчитать количество вхождений для каждого, потом отсортировать? Может готовое есть?»

anonymous
(05.06.21 11:04:20 MSK)

Где взять словарь наиболее употребляемых русских слов?

Все зависит от тематике книги.
Например про отбойные молотки чаше всего будет встречаться слово - «молоток».

anonymous
(05.06.21 11:09:11 MSK)

Ссылка

https://ruscorpora.ru/new/

slowpony ★★★★★
(05.06.21 11:15:49 MSK)

Ответ на: комментарий от slowpony 05.06.21 11:15:49 MSK

~/Documents 
❯ tail -n +2 freqrnc2011.csv| shuf -n5 | cut -d'        ' -f1 | xargs
защищаться неудачник подкрашивать вороний непотребство

~~tz4678~~ ★★
(07.06.21 06:54:45 MSK) автор топика

Ссылка

Может готовое есть?

Что тебе «готовое»? Куда может быть готовее? Ты скоро будешь вопрошать, «а чтобы посцать надо искать унитаз, открывать крышку и снимать штаны? Может что-то готовое есть?»

//nodejs
var txt = readFileSync("Война и мир.txt").toString();
var words = txt.replace(/[\.,;]/g,"").split(" ").map(v=>v.trim().toLowerCase());
var cnt = words.reduce((s,v)=>{
   s[v] = s[v] || {count : 0};
   s[v].count++;
   return s
}, {});
var top = Object.values(cnt).sort((a,b)=>a.count - b.count);
writeFileSync("Топ 100.txt", top.slice(0,100));

На любом язычке это кодится быстрее, чем ты писал пост на ЛОР.

crutch_master ★★★★★
(07.06.21 07:08:23 MSK)
Последнее исправление: crutch_master 07.06.21 07:10:01 MSK (всего исправлений: 2)

смотри например «Словарь синонимов В.Н.Тришина»

программа под винду с MS Access базой

там частотный словарь синонимов по частоте словоупотребления

anonymous
(07.06.21 12:13:05 MSK)

Где взять словарь наиболее употребляемых русских слов?

идиотизм

Войну и мир разбить, на слова

исходный корпус текстов какой? из разного набора будут разные «наиболее употребимые» получаться

anonymous
(07.06.21 12:14:07 MSK)

Ссылка

Ответ на: комментарий от crutch_master 07.06.21 07:08:23 MSK

Python 3.9.5 (default, Jun  7 2021, 11:59:18) 
[GCC 11.1.0] on linux
Type "help", "copyright", "credits" or "license()" for more information.
>>> with open('/home/sergey/Documents/Война и мир.txt') as f:
	contents = f.read()

	
>>> import re
>>> words = re.split(r'\W+', contents)
>>> import collections
>>> c = collections.Counter(filter(lambda x: len(x) > 3, words))
>>> list(c.most_common(10))
[('было', 2485), ('сказал', 2016), ('только', 1484), ('Пьер', 1401), ('чтобы', 989), ('князь', 949), ('того', 923), ('сноска', 923), ('него', 913), ('была', 902)]
>>>

~~tz4678~~ ★★
(07.06.21 12:14:57 MSK) автор топика

Ответ на: комментарий от anonymous 07.06.21 12:13:05 MSK

версия 7.3 от 30.01.2012 (может, в новой уже поболее)

составитель В.Н. Тришин

слов 416039

синонимических связей 1756603

anonymous
(07.06.21 12:18:49 MSK)

Ссылка

Ответ на: комментарий от tz4678 07.06.21 12:14:57 MSK

len(x) > 3

Т.е. ‘была’ 902 А ‘был’ вообще не определено.

anonymous
(07.06.21 12:20:25 MSK)

Ответ на: комментарий от anonymous 07.06.21 12:20:25 MSK

не умеет в лемматизацию и стоп-слова?

anonymous
(07.06.21 12:21:10 MSK)

Ответ на: комментарий от anonymous 07.06.21 12:20:25 MSK

~ 
❯ cat ~/Documents/Война\ и\ мир.txt | python -c 'import sys,re,collections; print(*(pair[0] for pair in collections.Counter(filter(lambda w: len(w) > 5, re.split("\W+", sys.stdin.read()))).most_common(10)))'
сказал только сноска Наташа теперь Андрей сказала которые говорил который

~~tz4678~~ ★★
(07.06.21 12:26:00 MSK) автор топика

Ответ на: комментарий от anonymous 07.06.21 12:21:10 MSK

https://www.geeksforgeeks.org/python-stemming-words-with-nltk/

этож уже датасаенс-говно

~~tz4678~~ ★★
(07.06.21 12:28:39 MSK) автор топика

Ответ на: комментарий от tz4678 07.06.21 12:14:57 MSK

Ну и в чём проблема?

crutch_master ★★★★★
(07.06.21 12:29:03 MSK)

Ответ на: комментарий от crutch_master 07.06.21 12:29:03 MSK

питон круче ноды для решения этой задачи

~~tz4678~~ ★★
(07.06.21 12:30:15 MSK) автор топика

Ответ на: комментарий от tz4678 07.06.21 12:30:15 MSK

1.Ты задачу свою решил?
2.Я ничего не вижу про поручика в твоём выхлопе, проверь код. XD

круче

3.Скриптуха дёргает либы.

crutch_master ★★★★★
(07.06.21 12:31:57 MSK)
Последнее исправление: crutch_master 07.06.21 12:32:51 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от tz4678 07.06.21 12:28:39 MSK

а что ты делаешь-то?

вообще, интересно.

если тупо выбирать марковские цепи на самых частотных словоупотреблениях (например, насколько бредогенератор бредоносный получается?

если например из войны и мира бредогенератор запилить?

anonymous
(07.06.21 12:35:29 MSK)

Ответ на: комментарий от tz4678 07.06.21 12:30:15 MSK

код на APL – просто няшечка!!!

anonymous
(07.06.21 12:40:10 MSK)

Ссылка

$a = (gc ./vm.txt -raw) -replace '\b\S{1,3}\b',' ' -split '[\s\W]+' |
    Group-Object |
    Sort-Object Count -desc

$a[0..9] | ft Count,Name

Count Name
----- ----
  377 князь
  372 сказал
  256 было
  201 Андрей
  195 только
  178 Пьер
  158 сказала
  149 Очень
  144 vous
  142 меня

anonymous
(07.06.21 13:25:30 MSK)

Ссылка

Ответ на: комментарий от anonymous 07.06.21 12:35:29 MSK

на питоне елдой обойтись можно

~~tz4678~~ ★★
(07.06.21 15:29:21 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 07.06.21 12:35:29 MSK

Я сейчас попробовал марковские цепи сделать (код, возможно, неправильный ибо я во всей этой околоматематике нуб):

# coding: utf-8
from collections import Counter, defaultdict
from typing import DefaultDict, Iterable, Sequence, Union
import random
import re
import sys


def pairs(seq: Sequence[str]) -> Iterable[tuple[str, str]]:
    for i in range(1, len(seq)):
        yield seq[i - 1], seq[i]


def markov(seq: Sequence[str]) -> DefaultDict[str, Union[DefaultDict[str, float], dict[str, float]]]:
    counters = defaultdict(Counter)
    for state, next in pairs(seq):
        counters[state][next] += 1
    probabilities = defaultdict(lambda: defaultdict(float))
    for state, counter in counters.items():
        total = sum(counter.values())
        probabilities[state] = {k: v / total for k, v in counter.items()}
    return probabilities


def generate(init_state: str, seq: Sequence[str], n: int=5) -> Iterable[str]:
    chain = markov(seq)
    state = init_state
    for i in range(n):
        yield state
        d = chain[state]
        state, = random.choices(list(d.keys()), d.values())



if __name__ == '__main__':
    with open(sys.argv[1]) as fp:
        contents = fp.read()
    words = re.findall(r'\b\S+\b', contents.lower())
    print(*generate(sys.argv[2], words))

Проверка:

❯ python markov.py ~/Documents/Books/Onegin.txt 'дом' 
дом селенье рощу под видом

~/workspace via 🐍 v3.9.5 
❯ python markov.py ~/Documents/Books/Onegin.txt 'онегин' 
онегин вы легкомыслия страстей и

~/workspace via 🐍 v3.9.5 
❯ python markov.py ~/Documents/Books/Onegin.txt 'вино'   
вино шипит и сердца факел

~~tz4678~~ ★★
(11.06.21 01:38:28 MSK) автор топика

Ответ на: комментарий от tz4678 11.06.21 01:38:28 MSK

а самое удивительное, что питон почти не жрет память. на хранение всех этих переходов между словами для структуры используется 294 килобайта памяти (sizeof), столько же сколько для текста

~~tz4678~~ ★★
(11.06.21 01:51:28 MSK) автор топика

Ссылка

Ответ на: комментарий от crutch_master 07.06.21 07:08:23 MSK

о, слушай а напиши и мне что ни будь, чтобы для души?

~~Shulman~~ ☆
(11.06.21 07:28:44 MSK)

Где взять словарь наиболее употребляемых русских слов?

На заборе

Psilocybe ★★★★★
(11.06.21 07:41:02 MSK)

Ссылка

Ответ на: комментарий от tz4678 07.06.21 12:26:00 MSK

Пьера посчитать забыл

luke ★★★★★
(11.06.21 08:29:02 MSK)

Ссылка

Ответ на: комментарий от Shulman 11.06.21 07:28:44 MSK

console.log(["Шульман","поц."].join(" - "));

(какое тз, такой и код)

crutch_master ★★★★★
(11.06.21 09:07:13 MSK)
Последнее исправление: crutch_master 11.06.21 09:07:39 MSK (всего исправлений: 1)

Ссылка

Когда-то пользовался (прошлый век, конечно) FDC.
http://owndictionary.narod.ru/download.html

novus ★★
(11.06.21 09:12:49 MSK)
Последнее исправление: novus 11.06.21 09:14:20 MSK (всего исправлений: 3)

Ссылка

Где взять словарь наиболее употребляемых русских слов?

На ЛОР конечно …
Первое место занимает

не нужно

anonymous
(11.06.21 17:17:08 MSK)

Ссылка

Ответ на: комментарий от anonymous 05.06.21 11:04:20 MSK

отсеять коросче трех символов

это так не работает

peregrine ★★★★★
(11.06.21 18:24:20 MSK)

Ссылка

Там яшка как раз на днях что-то выкладывал, погугли

peregrine ★★★★★
(11.06.21 18:25:10 MSK)

Ссылка

И это, если с книжек набирать, то надо не одну смотреть, а сразу много и разнообразных, добавляя ещё и тексты с форумов

peregrine ★★★★★
(11.06.21 18:25:42 MSK)
Последнее исправление: peregrine 11.06.21 18:25:57 MSK (всего исправлений: 1)

Ссылка

Войну и мир разбить, на слова …

Зачем?
Лучше уж тогда «Большую Советскую Энциклопедию» …
А может просто качнуть какой-нибудь Либрусек и 1000000 книг проанализировать.

anonymous
(11.06.21 18:35:08 MSK)

Ответ на: комментарий от anonymous 11.06.21 18:35:08 MSK

слова относящиеяс к опр специфике проще запомнить (генерируем пароль из случайных слов)

поймешь о чем я

~~tz4678~~ ★★
(12.06.21 14:00:25 MSK) автор топика

Ссылка

Похожие темы