LINUX.ORG.RU

вероятность и разброс изменения вероятности в распределенях символов в процессе сканирования потоковых данных

 , ,


0

1

Считаю распределение вероятностей символов в тексте и в частности следующие за каким-либо паттерном. (типа для прогнозирования)

Как определять надежность этого распределения при не достаточности набранной статистики? Когда считаю часто используемы паттерны, то для них статистики много. А когда паттерн встречается скажем раз пять, и скажем в четырех случаях за ним повторяется один символ. Значит вероятность его 4/5.

Но возьмем увеличим объем теста - дальше сканируем, как определить возможные пределы изменения этой вероятности? Чем эта вероятность вероятности измеряется, характеризуется, и как ее вообще понимать?

Тут еще наверно нужно учесть, что если есть паттерн на последний символ поменьше, то текущий будет в какой то степени наследовать его характеристики, и это определение вероятности вероятности...

Но возьмем увеличим объем теста - дальше сканируем, как определить возможные пределы изменения этой вероятности?

В пределе, от 0 (если этот паттерн больше ни разу не встретится) до 1 (если только этот паттерн и будет дальше встречаться).

Чем эта вероятность вероятности измеряется, характеризуется, и как ее вообще понимать?

AFAIR, чтобы об этом говорить, нужно сперва принять гипотезу о виде распределения вероятностей той случайной величины, параметры которой ты пытаешься определить.

А когда паттерн встречается скажем раз пять, и скажем в четырех случаях за ним повторяется один символ. Значит вероятность его 4/5.

Это должна быть типичная ситуация при сборе статистики: ты обследовал пятерых больных с высокой тепературой, и оказалось, что четверо из них больны ангиной...

Manhunt ★★★★★
()
Последнее исправление: Manhunt (всего исправлений: 1)
Ответ на: комментарий от Manhunt

Это должна быть типичная ситуация при сборе статистики: ты обследовал пятерых больных с высокой тепературой, и оказалось, что четверо из них больны ангиной...

а пятый не ангиной, а просто перегрелся. И предположим, эти больные взяты из одной очереди, и в ней еще 1000 человек...

Как здесь использовать функцию ошибки, и применять нормальное распределение? Скажем я хочу посчитать вероятность того, что общая вероятность окажется не ниже 3/5.

victor79
() автор топика
Ответ на: комментарий от victor79

И хочу составить и посмотреть график распределений этой вероятности, которая для данного случая будет совсем не Гауссовским.

victor79
() автор топика

Какую-то такую хуйню накрутил в вопросе, что я ничего не понял. К тому же выучи слово «шаблон»

anonymous
()

Как определять надежность этого распределения

Проверка статистических гипотез © (таблица показателей внизу).

при не достаточности набранной статистики

Непараметрическими (ранговыми) методами, например, U-критерий Манна — Уитни © позволяет выявлять различия в значении параметра между малыми выборками.

quickquest ★★★★★
()
Ответ на: комментарий от victor79

Как здесь использовать функцию ошибки, и применять нормальное распределение?

Никак. Для этого придумали порядковые статистики. ©

quickquest ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.