LINUX.ORG.RU

Что бы почитать про кластерный анализ?

 , ,


0

3

Собираю статистику событий с некоторого физического процесса, и хочется как-то формализовать-систематизировать события в отдельные группы. Каждое событие описывается 4-8 числами, часть размерные, часть безразмерные. По двухмерым проекциям функции распределения видно, что события группируются в некоторые группы, но хочется это дело формализовать и посмотреть, есть ли группировка по остальным параметрам. Насколько понял, такое делается с помощью кластерного анализа. Что бы почитать на эту тему, и какой инструментарий есть для питона? Да, событий на датасет около 150к.

★★★★★

Последнее исправление: thunar (всего исправлений: 1)
Ответ на: комментарий от quickquest

Так, в scipy вроде есть что нужно. А можешь пояснить про метрику, по каким критериям выбирается та или иная, и как она строится для данных разной размерности и финитности/инфинитности? Ну вот например, у меня каждое событие характеризуется двумя величинами: [a = число -1..1 ; b = попугаи -inf..+inf]. Мне нужно определить расстояния между каждой парой событий. Как быть с попугаями? Обоснованно ли сделать что то вроде b' = 2*atan(b/std(b))/π и подставлять в метрику уже [a, b']?

thunar ★★★★★
() автор топика
Ответ на: комментарий от thunar

про метрику, по каким критериям выбирается та или иная

По физическим критериям. Норма — это функционал, задающий метрику, обобщающий длину вектора. В вариационном анализе ищут решение, доставляющее экстремум этому функционалу.

Обоснованно ли сделать что то вроде

Обосновано, ежели «попугаи» не нарушают связь нормы и метрики: инвариантность относительно сдвига и положительную однородность ©.

P.S. Поскольку «я не настоящий сварщик»:) глянь Смолянов О.Г. Анализ на топологических линейных пространствах и его приложения ©.

quickquest ★★★★★
()
Ответ на: комментарий от quickquest

Норма — это функционал, задающий метрику,

Мимопроходил, но не нужно всё смешивать в кучу, особенно если речь о попугаях. Не каждое метрическое пространство является нормированным векторным пространством.

ТС, если у тебя «видно» группы, то неплохим началом может быть weighted norm/metric в сочетании с обычной эвклидовой метрикой, как в первом ответе тут: https://math.stackexchange.com/questions/394237/understanding-weighted-inner-...

tyakos ★★★
()
Ответ на: комментарий от tyakos

Не каждое метрическое пространство является нормированным векторным пространством.

Согласен ©, но у ТС'а «каждое событие характеризуется двумя величинами», следовательно, имеем «нормированное векторное пространство с попугаевой нормой» :)

quickquest ★★★★★
()
Ответ на: комментарий от quickquest

каждое событие характеризуется двумя величинами

Допустим, одна из величин дискретна (что вполне может быть, 0 или 1, например). Что тогда?

tyakos ★★★
()
Ответ на: комментарий от tyakos

Что тогда?

Тогда будет дискретное метрическое пространство (возможно сепарабильное?), однако это уже другая задача, а ТС указал «[a = число -1..1 ; b = попугаи -inf..+inf]», где двоеточия намекают на непрерывность.

quickquest ★★★★★
()
Ответ на: комментарий от thunar

вопрос как...

Ежели все компоненты события, в том числе и угол, линейно независимы, то они будут столбцами гетерогенного массива, который кластеризуют обычным образом.

quickquest ★★★★★
()
Ответ на: комментарий от quickquest

кластеризуют обычным образом

Вот это не понятно пока. Каждая строка массива же должна быть аргументами метрики, где они будут между собой складываться. Т.е. в любом случае нужно каждый элемент строки переводить в безразмерную форму и компактизировать/финитизировать, или я что-то фундаментально не догоняю?

thunar ★★★★★
() автор топика
Ответ на: комментарий от thunar

Т.е. в любом случае нужно каждый элемент строки переводить в безразмерную форму и компактизировать/финитизировать

Ненужно. Это только в «k-means», упомянутый предыдущим оратором, требуют однородных данных с результатом в гиперсфере, а «hierarchical clustering» допускает произвольную форму кластеров, например, как в задаче многомерного шкалирования §1.2.

quickquest ★★★★★
()
Ответ на: комментарий от peregrine

К-минс ему не подходят, для дискретных и угловых лучше иерархический - он даже на попугаях выдаст приемлимый результат.

Shadow ★★★★★
()
Ответ на: комментарий от Shadow

Скорее всего, вы правы. Но надо смотреть на практике что у него там.

peregrine ★★★★★
()
Последнее исправление: peregrine (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.