Data analysis

Cluster Analysis : (1) 개념

keepgroovin' 2015. 8. 14. 15:47

가정이나 목적 없이도 개체간 유사성 or 거리를 탐색해보는 군집분석


1. 군집분석 개념 

특별한 목적 없이유사한 개체들을 그룹화하여 각 집단의 성격을 파악함으로서 데이터 전체 구조에 대한 이해를 돕고자 하는 탐색적 데이터분석 방법


- 핵심 : 동일한 군집의 개체들은 유사한 성격을 갖도록, 
         서로 다른 군집의 대체들은 서로 다른 성격을 갖도록



2. 거리 Distance : 비유사성의 측도


1) 분석대상 변수 유형

    (1) 이산형 ok!! : 최소한 순서형 범주를 갖는 '이산형' 변수까지 분석대상으로 한닥  

    (2) 범주형 음... : 서로 다른 범주에 속한 '불일치수'가 몇 번인지 센다
       ※ E-miner에서는 명목형 변수에 대해 가변수를 만든 후 유클리드 거리를 계산하여 사용한다  

    (3) 이산형+범주형 ㅠ.ㅜ no~~~ 


2) 계산방법  

(1) 거리란 ? 

 i번재와 j번째 개체 사이의 거리는 dij 

  


(2) 거리측정방법
- 비유사성 : 유클리드거리



- 그 외 City Block Distince, Minkowski Distince도 있으니 
  개념이해를 위한 아래글 참고

  http://blog.naver.com/hero1014/20198091159

- 유사성 : 자카드거리

     

  


3. 군집의 유형 

1) 상호배반적disjoint 군집 : 한국인 일본인

2) 계층적hierarchical 군집 : 종-속-과-목

3) 중복overlapping 군집 : 두 개 이상의 군집에 한 관찰치가 동시에 소속 

4) 퍼지Fuzzy 군집 : 소속된 특정 군집이 아니라 각 군집에 속할 '가능성'을 표현


4. 군집분석시 유의할 사항


     1) 이상치outlier에 상당히 민감. 미리 제거할 것.  

     2) 초기군집수의 설정이 잘못되면 좋은 결과를 얻을 수 없다

     3) 아래그램 (b) b와 c는 한 그룹임에도, 단순히 유클리드 거리로 측정할 경우 b는 a와 더 가까워 보인다. 따라서 여러 군집방법을 통해 유사한 결과가 나오는지 확인해야 함. 





5. 군집분석의 종류 


1) 계층적 Hierarchial 군집분석 : 가장 가까운 개체들을 하나씩 묶어나감, 가장 마지막에 모든 개체를 하나의 군집으로 만듬 --> 덴트로그램으로 표현 가능 

단점은.. 한번 잘못 묶이면 되돌릴 수 없다잉


2) 최적분리 군집분석 : 미리 결정한 군집의 개수에 맞춰서 클러스터링. 더 상세한 '최적분리 군집분석'은 다음 글로 이어집니다잉