Data analysis

Cluster Analysis : (2) k-Means Clustering

keepgroovin' 2015. 8. 14. 16:13

최적분리 군집분석은 '정량적' 변수들 사이에 계산한 유클리드 거리를 기초로 군집을 형성한다. 

 

1. k-Means Clustering Process


초기값 선택 : 주어진 군집의 개수 k를 아예 초기값으로 선택하거나, 혹은
             k보다 많은 초기값을 각 변수의 표준편차 간격으로 고르고 오차제곱합 기반 기준 충족될

             때까지 군집의 수를 감소시킨다  

     

초기 군집 형성 : 각 개체의 초기값(중심)과의 거리가 가장 가까운 쪽에 할당, 할당한 후
                그 집단의 초기값(중심)을 그 집단의 평균벡터로 재설정 

 

재할당 : 각 개체를 가장 가까운 군집중에 재할당하고 군집의 중심(평균백터) 다시 계산하는 과정을 
         군집중심들의 변화가 일정 수준 이하가 될 때까지 반복하여 최종군집 형성



2. E-miner Flow 구성  


 data-set -----클러스터링 노드-----세그먼트 프로파일링 

      그래프/통계량 탐색       그래프 탐색


 data-set -----SOM/Kohonen 노드-----세그먼트 프로파일링 

그래프 탐색            그래프 탐색




3. 클러스터링 노드 : 클러스터링 수행


4. SOM/Kohonen 노드 

-자율예측 신경망으로도 잘 알려진 자기조직화지도(Self Organizing Maps)나
 Kohonen의 '벡터 수량화 네트워크'(Vector Quantization networks)를 이용하여 

 군집화의 목적으로 사용


- 행r과 열c의 개수 r X c = 군집의 개수 



5. 변수 클러스터링 노드 

- 목적 : 변수의 군집화, 차원의 축소, 변수간 상호의존관계 분석

 ~ 주성분분석, 요인분석