LINUX.ORG.RU
ФорумTalks

100 Гб литературы для частотного анализа русского языка


0

0

Здравствуйте!
Взбрела мне тут в голову идея произвести по словный частотный анализ русского языка.
К счастью для этого имелся образ библиотеки Мошкова (4 Гб текстов).
Написал скрипт, который заносит информацию о частоте встреч пяти-словных фраз..
При этом оказалось, что ни одна пятисловная фраза вовсе не повторилась. Куда более интересный результат дал анализ 4-х словных фраз. 10 самых часто встречающихся 4-х словных выражений это:

1) В то время как
2) Дело в том что
3) Несмотря на то что
4) С тех пор как
5) В то же время
6) До тех пор пока
7) И в самом деле
8) До сих пор не
9) В том числе и
10) Одно и то же

Хе.. :-) Думаю такие результаты никого не удивили... В действительности, это самые общие выражения, которые могут применяться абсолютно во всех текстах самого разнообразного характера.

Однако, для получения более интересных результатов материала для анализа явно маловато. Слов, которые встретились в базе данных более 100 раз оказалось всего лишь 3362. Таким образом число встреч даже двусловных сочетаний не самых распространённых слов при таком раскладе в базе данных чаще всего окажется равным 1-2 штуки.
Надо проанализировать эдак раз в 100 поболее материала.

Вопрос в том где можно было бы набрать столько литературы на русском языке? И желательно в zip-архивах. Потому что 100 Гб мне явно не в жизни не выкачать.. А 10 Гб архивов мне кажется будет вполне достаточно..

★★★★★

Я делал подобную штуку для поисковых запросов, там все интереснее и печальнее. Из библиотеки мошкова лучше отдельно проанализируй классиков и современных "авторов", и раздел "дамские романы". Будет интересно.

100 гигов тебе не нужно.

soomrack ★★★★★
()

> 100 Гб мне явно не в жизни не выкачать.. А 10 Гб архивов мне кажется будет вполне достаточно..

То есть ты согласен потратить чуть более, чем десятую часть своей оставшейся жизни на выкачивание архивов? Мой тебе совет: переезжай в Москву. Или к Мише в Латвию.

anonymous
()

Дело в том что, в то время как, несмотря на то, что с тех пор как, в то же время, до тех пор пока (в том числе , и в самом деле), одно и то же до сих пор не БАЯН!

lester_dev ★★★★★
()
Ответ на: комментарий от anonymous

> То есть ты согласен потратить чуть более, чем десятую часть своей оставшейся жизни на выкачивание архивов? Мой тебе совет: переезжай в Москву. Или к Мише в Латвию.

Да, 10 Гб выкачаем.. Даже если другого выхода не найдётся, за 2 месяца можно и из дома выкачать :-)

unDEFER ★★★★★
() автор топика
Ответ на: комментарий от anonymous

>То есть ты согласен потратить чуть более, чем десятую часть своей >оставшейся жизни на выкачивание архивов? Мой тебе совет: переезжай в >Москву. Или к Мише в Латвию.

как-то натыкался на сервис, который за небольшие $ скачивает и рассылает файлы на dvd, так что необязательно

anonymous
()
Ответ на: комментарий от unDEFER

> Даже если другого выхода не найдётся, за 2 месяца можно и из дома выкачать :-)

Т.е. ты опасаешься, что 20 месяцев, которые заняло бы скавичание 100 ГБ, ты можешь не прожить?

anonymous
()
Ответ на: комментарий от anonymous

> Т.е. ты опасаешься, что 20 месяцев, которые заняло бы скавичание 100 ГБ, ты можешь не прожить?

На 1,5 года у меня терпения точно не хватит ждать...

unDEFER ★★★★★
() автор топика

недавно еще гугл звастался несколько терабайтной базой словосочетаний из 5 слов...

soomrack ★★★★★
()
Ответ на: комментарий от unDEFER

Ой там зипы, лень качать диалапом. Сенкс за ссылки!

FiXer ★★☆☆☆
()

А ты не пробовал определить ВАЛЕНТНОСТЬ слов? Например с какими дополнениями сочетаются глаголы? Ответ предполагается получить в виде глагол = предлог+падеж, предлог+падеж и т.п. Например для тысячи самых частотных глаголов? Мне кажется, что где-то рядом лежит очень интересное лингвистическое открытие.

Beria1937
()
Ответ на: комментарий от Beria1937

Для такого анализа тоже совершенно наверняка не достаточно проанализированного материала.
Я пробовал определить наиболее часто встречаемые словосочетания с конкретным словом.
Вот, например, двусловные сочетания, в которых вторым словом является "телевизор":
1) Смотрел телевизор (7 встреч в БД)
2) В телевизор (6 встреч)
3) И телевизор (4 встречи)
4) Цветной телевизор (2 встречи)

Всего 77 разных словосочетаний, но когда большинство из них встречаются по одному разу не о каких "наиболее часто встречающихся" фразах говорить не приходится...

unDEFER ★★★★★
() автор топика
Ответ на: комментарий от Beria1937

О, надо же! Интересы объединяют...
Был очень приятно удивлён, увидев в вашем профиле URL на проект "Правда". Когда-то я переписывался по этому поводу с самим Дмитрием Анисимовым.
Расскажите, пожалуйста, развивается ли "Правда"?

unDEFER ★★★★★
() автор топика
Ответ на: комментарий от unDEFER

100 Гб литературы, да примерно по мегабайту на книжку — это сто тысяч наименований книг. Меня терзают смутные сомнения, что в электронном виде на русском языке столько не найдется.

abraziv_whiskey ★★★★★
()

У нас некогда продавались три-четыре дивидишника с литературой (на каждом авторы на определённые несколько букв), так что я бы не побрезговал пробежаться по рынкам пиратских дисков.

anonymous
()

>Вопрос в том где можно было бы набрать столько литературы на русском языке

кивипедию в .7z? или не наберётся объём?

anonymous
()
Ответ на: комментарий от unDEFER

> Был очень приятно удивлён, увидев в вашем профиле URL на проект "Правда". Когда-то я переписывался по этому поводу с самим Дмитрием Анисимовым. Расскажите, пожалуйста, развивается ли "Правда"?

Давай, пиши на prawda@newmail.ru . Димитрий Анисимов и Beria1937 - один персонаж. И не называй меня "самим" Дмитрием Анисимовым. Линукс - это коммунизм. А при коммунизме все равны. И я тоже :-)))

Мне пришлось сменить работу. По-этому проект развивается МЕДЛЕННО. Но про валентность я не зря спросил. Это то, что может дать большой шаг вперед. И все-таки задействовать для перевода что-то похожее на нейронные сети. Которые я отрицал все семь лет жизни проекта :-)))

Beria1937
()
Ответ на: комментарий от unDEFER

на torrents.ru архив lib.aldebaran - 5.7Гб в fb2.zip
хз сколько это получается всего, но прилично )

hizel ★★★★★
()

Сочинения Ленина?

cvs-255 ★★★★★
()
Ответ на: комментарий от unDEFER

>Мне интересен именно частотный анализ фраз...

Вводишь в поиск "фразеологический словарь .zip" и скачиваешь архивированный "концентрат" типичных выражений русского языка.

quickquest ★★★★★
()

ИЗВИНЯЮСЬ, ПЕРЕД МНОГЧИСЛЕННОЙ АУДИТОРИЕЙ LOR.
В мой скрипт закралась ошибка.. Из-за этого вообще говоря большая часть текстов вовсе не была учтена. И поэтому и скрипт слишком быстро отработал..
Запустил заново.. Потом сообщу о новых результатах...
Но пожалуй 5 Гб текстов всё же хватит с головой...

unDEFER ★★★★★
() автор топика
Ответ на: комментарий от unDEFER

Интересная тема.
Я тоже переписывался с Димой и тоже пробовал анализировать библиотеку Мошкова.
Тебе на какую почту/jabber можно отписать?

anonymous
()
Ответ на: комментарий от anonymous

> Тебе на какую почту/jabber можно отписать?

Я -- есть unDEFER на gmail.com и jabber.org

unDEFER ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.