최적분리 군집분석은 '정량적' 변수들 사이에 계산한 유클리드 거리를 기초로 군집을 형성한다.
1. k-Means Clustering Process
초기값 선택 : 주어진 군집의 개수 k를 아예 초기값으로 선택하거나, 혹은
↓ k보다 많은 초기값을 각 변수의 표준편차 간격으로 고르고 오차제곱합 기반 기준 충족될
↓ 때까지 군집의 수를 감소시킨다
↓
초기 군집 형성 : 각 개체의 초기값(중심)과의 거리가 가장 가까운 쪽에 할당, 할당한 후
↓ 그 집단의 초기값(중심)을 그 집단의 평균벡터로 재설정
↓
↓
재할당 : 각 개체를 가장 가까운 군집중에 재할당하고 군집의 중심(평균백터) 다시 계산하는 과정을
군집중심들의 변화가 일정 수준 이하가 될 때까지 반복하여 최종군집 형성
2. E-miner Flow 구성
data-set -----클러스터링 노드-----세그먼트 프로파일링
그래프/통계량 탐색 그래프 탐색
data-set -----SOM/Kohonen 노드-----세그먼트 프로파일링
그래프 탐색 그래프 탐색
3. 클러스터링 노드 : 클러스터링 수행
4. SOM/Kohonen 노드
-자율예측 신경망으로도 잘 알려진 자기조직화지도(Self Organizing Maps)나
Kohonen의 '벡터 수량화 네트워크'(Vector Quantization networks)를 이용하여
군집화의 목적으로 사용
- 행r과 열c의 개수 r X c = 군집의 개수
5. 변수 클러스터링 노드
- 목적 : 변수의 군집화, 차원의 축소, 변수간 상호의존관계 분석
~ 주성분분석, 요인분석