Здравствуйте!
Взбрела мне тут в голову идея произвести по словный частотный анализ русского языка.
К счастью для этого имелся образ библиотеки Мошкова (4 Гб текстов).
Написал скрипт, который заносит информацию о частоте встреч пяти-словных фраз..
При этом оказалось, что ни одна пятисловная фраза вовсе не повторилась. Куда более интересный результат дал анализ 4-х словных фраз. 10 самых часто встречающихся 4-х словных выражений это:
1) В то время как
2) Дело в том что
3) Несмотря на то что
4) С тех пор как
5) В то же время
6) До тех пор пока
7) И в самом деле
8) До сих пор не
9) В том числе и
10) Одно и то же
Хе.. :-) Думаю такие результаты никого не удивили... В действительности, это самые общие выражения, которые могут применяться абсолютно во всех текстах самого разнообразного характера.
Однако, для получения более интересных результатов материала для анализа явно маловато. Слов, которые встретились в базе данных более 100 раз оказалось всего лишь 3362. Таким образом число встреч даже двусловных сочетаний не самых распространённых слов при таком раскладе в базе данных чаще всего окажется равным 1-2 штуки.
Надо проанализировать эдак раз в 100 поболее материала.
Вопрос в том где можно было бы набрать столько литературы на русском языке? И желательно в zip-архивах. Потому что 100 Гб мне явно не в жизни не выкачать.. А 10 Гб архивов мне кажется будет вполне достаточно..
Ответ на:
комментарий
от anonymous
Ответ на:
комментарий
от anonymous
Ответ на:
комментарий
от unDEFER
Ответ на:
комментарий
от FiXer
Ответ на:
комментарий
от anonymous
Ответ на:
комментарий
от unDEFER
Ответ на:
комментарий
от Beria1937
Ответ на:
комментарий
от Beria1937
Ответ на:
комментарий
от unDEFER
Ответ на:
комментарий
от abraziv_whiskey
Ответ на:
комментарий
от unDEFER
Ответ на:
комментарий
от unDEFER
Ответ на:
комментарий
от unDEFER
Ответ на:
комментарий
от unDEFER
Ответ на:
комментарий
от anonymous
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум Велосипед (частотный анализ текста) (2023)
- Форум Посоветуйте литературу по тензорному анализу. (2014)
- Форум Посоветуйте литературу по векторному анализу (2015)
- Форум krunner использует 100 гб памяти (2016)
- Форум Схема частотного фильтра (2006)
- Форум transmission, rutracker и большие файлы (100+гб) (2021)
- Форум Русско-польский частотный словарь (2012)
- Форум Посоветуйте английский частотный словарь (2013)
- Форум Частотное разложение в gimp (2014)
- Форум Анализ тональности текстов на русском языке (2018)