вероятность и разброс изменения вероятности в распределенях символов в процессе сканирования потоковых данных

0

1

Считаю распределение вероятностей символов в тексте и в частности следующие за каким-либо паттерном. (типа для прогнозирования)

Как определять надежность этого распределения при не достаточности набранной статистики? Когда считаю часто используемы паттерны, то для них статистики много. А когда паттерн встречается скажем раз пять, и скажем в четырех случаях за ним повторяется один символ. Значит вероятность его 4/5.

Но возьмем увеличим объем теста - дальше сканируем, как определить возможные пределы изменения этой вероятности? Чем эта вероятность вероятности измеряется, характеризуется, и как ее вообще понимать?

Тут еще наверно нужно учесть, что если есть паттерн на последний символ поменьше, то текущий будет в какой то степени наследовать его характеристики, и это определение вероятности вероятности...

Ссылка

←	Консоль с раздельными областями для ввода и вывода

На что обращают внимание в тестовых заданиях на С++?

→

Но возьмем увеличим объем теста - дальше сканируем, как определить возможные пределы изменения этой вероятности?

В пределе, от 0 (если этот паттерн больше ни разу не встретится) до 1 (если только этот паттерн и будет дальше встречаться).

Чем эта вероятность вероятности измеряется, характеризуется, и как ее вообще понимать?

AFAIR, чтобы об этом говорить, нужно сперва принять гипотезу о виде распределения вероятностей той случайной величины, параметры которой ты пытаешься определить.

А когда паттерн встречается скажем раз пять, и скажем в четырех случаях за ним повторяется один символ. Значит вероятность его 4/5.

Это должна быть типичная ситуация при сборе статистики: ты обследовал пятерых больных с высокой тепературой, и оказалось, что четверо из них больны ангиной...

Manhunt ★★★★★
(15.09.15 03:13:58 MSK)
Последнее исправление: Manhunt 15.09.15 03:16:15 MSK (всего исправлений: 1)

Ответ на: комментарий от Manhunt 15.09.15 03:13:58 MSK

Это должна быть типичная ситуация при сборе статистики: ты обследовал пятерых больных с высокой тепературой, и оказалось, что четверо из них больны ангиной...

а пятый не ангиной, а просто перегрелся. И предположим, эти больные взяты из одной очереди, и в ней еще 1000 человек...

Как здесь использовать функцию ошибки, и применять нормальное распределение? Скажем я хочу посчитать вероятность того, что общая вероятность окажется не ниже 3/5.

victor79 ★
(15.09.15 03:59:24 MSK) автор топика

Ответ на: комментарий от victor79 15.09.15 03:59:24 MSK

И хочу составить и посмотреть график распределений этой вероятности, которая для данного случая будет совсем не Гауссовским.

victor79 ★
(15.09.15 04:09:24 MSK) автор топика

Ссылка

Какую-то такую хуйню накрутил в вопросе, что я ничего не понял. К тому же выучи слово «шаблон»

anonymous
(15.09.15 06:42:20 MSK)

Ссылка

Как определять надежность этого распределения

Проверка статистических гипотез © (таблица показателей внизу).

при не достаточности набранной статистики

Непараметрическими (ранговыми) методами, например, U-критерий Манна — Уитни © позволяет выявлять различия в значении параметра между малыми выборками.

quickquest ★★★★★
(15.09.15 12:00:45 MSK)