LINUX.ORG.RU

посчитать доверительный интервал

 ,


2

1

Добрый вечер.

Есть n=1000 результатов измерения в каком-то опыте. Нужно посчитать доверительный интервал (confidence interval) при уровне доверия (confidence level) L=90%. О распределении ничего не известно.

Есть ли способ сделать такое? Или нужно сначала выяснить как у нас распределены данные? Я склоняюсь к последнему.

★★★★★

Непараметрические методы как раз и разработаны для тех ситуаций, достаточно часто возникающих на практике, когда исследователь ничего не знает о параметрах исследуемой популяции (отсюда и название методов — непараметрические).

Deathstalker ★★★★★
()

Погрешности большинства (по крайней мере, у нас на физфаке других не было в принципе, хотя о самом факте их существования я слышал) измерений нормальные, так что это просто распределение Стьюдента со всеми вытекающими.

redgremlin ★★★★★
()
Ответ на: комментарий от redgremlin

Я меряю скорость процесса через perf stat. Отсюда и непонятки с тем как оно там распределено.

true_admin ★★★★★
() автор топика

накапливайте группированный по возрастанию ряд последней 1000 значений, значения по счету 50 и 950 в ряду и будут искомыми границами.

psv1967 ★★★★★
()

О распределении ничего не известно.

Метод Монте-Карло же. Если про распределение ничего не известно, то других методов нет, насколько я знаю.

yvv ★★☆
()
Ответ на: комментарий от true_admin

время процесса не может быть меньше 0, искомое распределение совсем не нормальное. интервал крайне асимметричен.

5, 50 и 95 вот точки перцентилей для ненормального распределения наилучшим образом его характеризующие. наверное как более устойчивые можно считать 25 и 75 и как то пересчитывать в 5 и 95 но это уже перфекционизм (поскольку 50 значений случайных вполне детерминировано определяют границу).

psv1967 ★★★★★
()
Ответ на: комментарий от true_admin

для непрерывного потока данных:

берем последние 1000 последовательных замеров и считаем порядковый номер

в R

> data <- runif(2000) # пример ненормального распределения от 0 до 1
> d <- data[c((length(data)-1000) : length(data))]
> d[order(d)][c(50, 500, 950)]
[1] 0.04807699 0.49642566 0.94495841
psv1967 ★★★★★
()
Последнее исправление: psv1967 (всего исправлений: 1)
Ответ на: комментарий от true_admin

он имеет в виду оценку с помощью бутстрепа. но она нужна только для оценки некого параметра --- например среднего значения, или медианы или ещё чего.

делают из этой тысячи текущих значений столько выборок по тысяче «с возвращением» сколько надо для получения сходимости оценки к нужному числу достоверных цифр в результате (фактически извлекают перцентили накопленного по перевыборкам с возвращением ряда вычисленных значений интересующего показателя).

psv1967 ★★★★★
()
Ответ на: комментарий от quickquest

ну и чем это отличается от сказанного мной? :) фамилий человека который не имеет никакого отношения к тривиальной идее вероятностных расчетов с помощью кумулятивного распределения?

psv1967 ★★★★★
()
Ответ на: комментарий от psv1967

ну и чем это отличается от сказанного мной? :)

На твоё авторство никто не покушается :)

P.S. А книжку по порядковым статистикам ТС'у почитать полезно.

quickquest ★★★★★
()
Ответ на: комментарий от quickquest

книжку по порядковым статистикам ТС'у почитать полезно.

Будет сделано, сэр!

true_admin ★★★★★
() автор топика
Ответ на: комментарий от psv1967

значения по счету 50 и 950 в ряду и будут искомыми границами.

Мне кажется это будет работать только лишь при симметричном распределении, нет? У меня вот получилось такое распредление: http://imgur.com/JP3shnn . Значит ли это что с одной стороны нужно отсекать больше чем с другой?

Или, о ужас, может доверительных интервалов может быть несколько? Какой тогда брать?

true_admin ★★★★★
() автор топика
Ответ на: комментарий от true_admin

Это работает при любом распределении. Даже таком как нарисовано :) Полученный интервал предскажет вероятность будущих значений.

Безусловно можно бутстрепом и для медианы, и для границ получить свои собственные интервальные оценки, но по моему там и так все устойчиво при такой выборке.

Но нарисованное больше напоминает смесь двух распределений. И наверное рационально для картинки решить задачу разделения смеси распределений.

psv1967 ★★★★★
()
Ответ на: комментарий от psv1967

Мне мой профессор сказал что не зная распределения так делать нельзя. Дело в том что мы можем таким путём отсечь маловероятные события которые, однако, очень сильно отстоят от среднего значения. Это плохо по той причине что многие системы могут быть не расчитаны на такие отклонения.

Т.е., логика такая: не пренебрегать маловероятными событиями которые потенциально могут сильно навредить. Как пример он мне привёл Фукусиму...

true_admin ★★★★★
() автор топика
Ответ на: комментарий от true_admin

«Кто на ком стоял»? :)

Если мы определили «95%» доверительный интервал, то мы определили именно «95%» доверительный интервал. Никакие «далеко отстоящие события» мы не отсекаем. Мы просто четко говорим _за_ пределами каких границ окажутся 5% событий.

Если конкретно о теории надежности, то вынужден огорчить Вашего научрука, там вообще _всё_ считается монтекарло :) Ну не считаются аналитически итоговые интегральные уравнения хоть плачь :)

Надо меньшие вероятности посчитать --- есть куча схем http://en.wikipedia.org/wiki/Bootstrapping_(statistics)

psv1967 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.