LINUX.ORG.RU
ФорумTalks

[Статистика] Дисперсия

 


0

1

Даны N тел (например - растительные клетки). Размер каждого тела i измерается m_i раз (для каждого тела m_i - разный). Надо описать полученные данные. Со средним размером все просто: вычесляем величину средего размера для каждого из тел, суммируем и делим на N. С дисперсией - не так-то просто.

Брать дисперсию средних размеров - путь плохой, так как он не учитывает дисперсию измерений. Собрать все измерения в кучу и вычеслят дисперсию этой «кучи» - тоже не хорошо, потому-что измерения - не являются взаимнонезависимыми (плюс так мы не учитываем разницы в m_i). С первого взгляда может показаться что первую проблему можно игнорировать. Это так, если дисперсия измерений размера каждого тела очень мала по сравнению с самим телом (+- пару милиметров при >1 метра роста). Но в данном случае, дисперсия измерений размера одного тела может достичь 20-30% от размера самого тела.

Что может посоветовать уважаемая публика? Тут http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html предлагается формула для складывания двух дисперсий, но я не совсем понимаю как её расширить до N.

Спасибо.

★★

phrm, дисперсия - это разве не среднеквадратичное отклонение? чего тут считать-то?

p.s. в начале прочитал как дипресия. похоже, что мне доктор нужен.

null123 ★★
()
Ответ на: комментарий от null123

Почти (дисперсия это среднеквадратичное отклонение в квадрате).

чего тут считать-то?

Объясню. Есть формула. В неё надо вставить вместо буковок - циферки. Формула одна, а подходов какие циферки ставить вместо каких буковок может быть несколько. По вашему вопросу я понимаю, что вы советуете накидать все циферки в одну кучу, но это приведет к неправильному результату (см. выше)

phrm ★★
() автор топика

>>предлагается формула для складывания двух дисперсий, но я не совсем понимаю как её расширить до N

Так это дисперсия для величины, которая тебя не устраивает - combined mean это и есть по сути дела все измерения в кучу, когда берем среднее по измерениям, забывая что измерения сгруппированы по клеткам.

mclaudt
()

>>Брать дисперсию средних размеров - путь плохой, так как он не учитывает дисперсию измерений.

Попробуй оперировать все же дисперсией среднего, но выйди на неё через среднеквадратичную погрешность среднего.

Вычисли среднеквадратичную погрешность среднего (СПС) для каждого тела (это k*корень из дисперсии, уточни k по справочнику). Назовем это S_i. Вычисли соответствующие относительные величины s_i.

Далее у тебя есть величина «средний размер среднего размера» (СРСР). Ты должен найти её погрешность. Сперва найдем относительную погрешность. Она находится как корень из суммы квадратов s_i и относительной погрешности разброса величины СРСР (она равна СПС этой величины, деленной на значение величины).

Далее полученную относительную умножаем на саму СРСР и получаем абсолютную погрешность величины СРСР. Поделим на k, возведем в квадрат и получим дисперсию. В ней будет сидеть не только дисперсия средних, но и дисперсия по каждому телу.

mclaudt
()
Ответ на: комментарий от null123

p.s. в начале прочитал как дипресия. похоже, что мне доктор нужен.

не тебе одному... прочитал так же. Начал читать про тела, и че-то стал офигевать. прокрутил до твоего коммента и узрел свою ошибку )

Andru ★★★★
()

>Что может посоветовать уважаемая публика?

Если есть обоснованные сомнения в нормальном расспределении измеряемых величин и погрешностей, то мат.ожидание и дисперсия - не оптимальные параметры. Есть ранговые (медиана, интерквантильный размах) и робастные (М-оценки) аналоги. Подробности в книжках типа: Хьюбер П. Робастность в статистике

quickquest ★★★★★
()

Хех... вопрос такой, дисперсию чего ты хочешь вычислить?

Waterlaz ★★★★★
()

У тебя есть а) измерения б) ошибка измерения имеющее предположительно гауссову природу

Организуй «игрушечное моделирование» и посмотри как сдвигается среднее.

Evgueni ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.