가정이나 목적 없이도 개체간 유사성 or 거리를 탐색해보는 군집분석
1. 군집분석 개념
특별한 목적 없이유사한 개체들을 그룹화하여 각 집단의 성격을 파악함으로서 데이터 전체 구조에 대한 이해를 돕고자 하는 탐색적 데이터분석 방법
- 핵심 : 동일한 군집의 개체들은 유사한 성격을 갖도록,
서로 다른 군집의 대체들은 서로 다른 성격을 갖도록
2. 거리 Distance : 비유사성의 측도
1) 분석대상 변수 유형
(1) 이산형 ok!! : 최소한 순서형 범주를 갖는 '이산형' 변수까지 분석대상으로 한닥
(2) 범주형 음... : 서로 다른 범주에 속한 '불일치수'가 몇 번인지 센다
※ E-miner에서는 명목형 변수에 대해 가변수를 만든 후 유클리드 거리를 계산하여 사용한다
(3) 이산형+범주형 ㅠ.ㅜ no~~~
2) 계산방법
(1) 거리란 ?
i번재와 j번째 개체 사이의 거리는 dij
(2) 거리측정방법
- 비유사성 : 유클리드거리
- 그 외 City Block Distince, Minkowski Distince도 있으니
개념이해를 위한 아래글 참고
http://blog.naver.com/hero1014/20198091159
- 유사성 : 자카드거리
3. 군집의 유형
1) 상호배반적disjoint 군집 : 한국인 일본인
2) 계층적hierarchical 군집 : 종-속-과-목
3) 중복overlapping 군집 : 두 개 이상의 군집에 한 관찰치가 동시에 소속
4) 퍼지Fuzzy 군집 : 소속된 특정 군집이 아니라 각 군집에 속할 '가능성'을 표현
4. 군집분석시 유의할 사항
1) 이상치outlier에 상당히 민감. 미리 제거할 것.
2) 초기군집수의 설정이 잘못되면 좋은 결과를 얻을 수 없다
3) 아래그램 (b) b와 c는 한 그룹임에도, 단순히 유클리드 거리로 측정할 경우 b는 a와 더 가까워 보인다. 따라서 여러 군집방법을 통해 유사한 결과가 나오는지 확인해야 함.
5. 군집분석의 종류
1) 계층적 Hierarchial 군집분석 : 가장 가까운 개체들을 하나씩 묶어나감, 가장 마지막에 모든 개체를 하나의 군집으로 만듬 --> 덴트로그램으로 표현 가능
단점은.. 한번 잘못 묶이면 되돌릴 수 없다잉
2) 최적분리 군집분석 : 미리 결정한 군집의 개수에 맞춰서 클러스터링. 더 상세한 '최적분리 군집분석'은 다음 글로 이어집니다잉