LINUX.ORG.RU

Как называется такая сумма вероятностей?

 


0

1

Есть множество значений. Некоторые значения в этом множестве повторяются, ну или большинство. Процент одного из значений в этом множестве составляет k/n, где k это количество этого значения, а n это размер множества. Если количество различных значений m, то формула такая (во избежания разночтений пусть будет С++ код):

double su = 0;

for (int i = 0; i < m; ++i)
    su += pow(static_cast<double>(k[i])/n, 2);

double result = sqrt(su);

Результатное значение такой формулы всегда больше нуля и меньше или равно единицы. Имеет ли это какое-либо обособленное название в математике?

=========================================

В общем это один из вариантов коэффициента Gini Impurity. Еще вариант такого коэффициента это такая сумма вероятностей Sum( p[i] * (1 - p[i]) ).



Последнее исправление: victor79 (всего исправлений: 1)

Есть множество значений. Некоторые значения в этом множестве повторяются, ну или большинство.

Во множестве не может быть повторяющихся элементов

Crocodoom ★★★★★
()
Ответ на: комментарий от Crocodoom

{0,0} - вот тебе множество с повторяющимися элементами.

ZERG ★★★★★
()
Ответ на: комментарий от Crocodoom

Во множестве не может быть повторяющихся элементов

Это согласно какой науки? Например в языке С++ есть multiset - упорядоченное множество с повторяющимися значениями.

victor79
() автор топика

Это у тебя не сумма вероятностей, а сумма квадратов вероятностей, вот чётко это выражение и нужно искать (google + "" тебе в помощь). Вот тут https://habr.com/ru/post/343700/ что-то похожее упоминают (см. Gini impurity).

ZERG ★★★★★
()

Процент одного из значений

Математика не любит процентов, они лишняя сущность. Практически всегда удобнее вероятность от 0 до 1. Аккуратнее пиши, у тебя в формуле нет процентов.

peregrine ★★★★★
()

формула такая (во избежания разночтений пусть будет С++ код)

Доколе? Доколе мы будем страдать с псевдокодом вместо формул? %)

Nervous ★★★★★
()
Ответ на: комментарий от peregrine

Математика не любит процентов, они лишняя сущность. Практически всегда удобнее вероятность от 0 до 1. Аккуратнее пиши, у тебя в формуле нет процентов.

У меня в формуле процент деленный на 100, а вероятности будут на бесконечностных выборках. Аккуратней пиши.

victor79
() автор топика
26 октября 2020 г.

Результатное значение такой формулы всегда больше нуля и меньше или равно единицы. Имеет ли это какое-либо обособленное название в математике?

нет, su может быть больше единицы, в общем случае (если «множества» пересекаются). Сумма квадратов вероятностей Бернули-распределенных случайных величин без дополнительного контекста ничего не означает.

Еще вариант такого коэффициента это такая сумма вероятностей Sum( p[i] * (1 - p[i]) )

Это дисперсия суммы независимых Бернули-распределенных случайных величин. Если ты знаешь, что у тебя «множества» не пересекаются, (те \sum_i p[i] = 1), то формула выше переходит в 1-sum(p[i]^2), что ты и считаешь. Надо отметить, что в этом случает ты предполагаешь categorical распределение, но считаешь как для Бернули. Если хочешь понять интуицию, то смотри как переплетаются энтропия, KL-дивергенция, метод максимального правдоподобия и индекс джини. Терминов много, но на деле все тривиально.

ПС. я тут предполагал что p[i]=k[i]/n

maggotroot
()
Ответ на: комментарий от maggotroot

нет, su может быть больше единицы, в общем случае (если «множества» пересекаются). Сумма квадратов вероятностей Бернули-распределенных случайных величин без дополнительного контекста ничего не означает.

Это то да, но ты немного спутал, у меня была сумма квадратов вероятностей одного множества, а не двух.

Оно имеет смысл для классификации, для сравнения качества между двумя возможными отборами из множества, на предмет который лучше отбирает.

Для примера, один отбор сделал выборку и в результатном множестве всего два значения, одно значение составляет 60%, а другое значение 40%.

А другой обор сделал выборку что одно значение 61%, а все остальные 39% рамазаны по 0.1% между 390 значениям.

Какой из отборов лучше? Измерять по максимальному не для всех случаев лучший вариант. И запоминать все возможные отборы то же не всегда возможно из-за их обилия.

victor79
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.