Считаю распределение вероятностей символов в тексте и в частности следующие за каким-либо паттерном. (типа для прогнозирования)
Как определять надежность этого распределения при не достаточности набранной статистики? Когда считаю часто используемы паттерны, то для них статистики много. А когда паттерн встречается скажем раз пять, и скажем в четырех случаях за ним повторяется один символ. Значит вероятность его 4/5.
Но возьмем увеличим объем теста - дальше сканируем, как определить возможные пределы изменения этой вероятности? Чем эта вероятность вероятности измеряется, характеризуется, и как ее вообще понимать?
Тут еще наверно нужно учесть, что если есть паттерн на последний символ поменьше, то текущий будет в какой то степени наследовать его характеристики, и это определение вероятности вероятности...