Cluster Analysis : (1) 개념

Data analysis

Cluster Analysis : (1) 개념

keepgroovin' 2015. 8. 14. 15:47

가정이나 목적 없이도 개체간 유사성 or 거리를 탐색해보는 군집분석

1. 군집분석 개념

특별한 목적 없이유사한 개체들을 그룹화하여 각 집단의 성격을 파악함으로서 데이터 전체 구조에 대한 이해를 돕고자 하는 탐색적 데이터분석 방법

- 핵심 : 동일한 군집의 개체들은 유사한 성격을 갖도록,
서로 다른 군집의 대체들은 서로 다른 성격을 갖도록

2. 거리 Distance : 비유사성의 측도

1) 분석대상 변수 유형

(1) 이산형 ok!! : 최소한 순서형 범주를 갖는 '이산형' 변수까지 분석대상으로 한닥

(2) 범주형 음... : 서로 다른 범주에 속한 '불일치수'가 몇 번인지 센다
※ E-miner에서는 명목형 변수에 대해 가변수를 만든 후 유클리드 거리를 계산하여 사용한다

(3) 이산형+범주형 ㅠ.ㅜ no~~~

2) 계산방법

(1) 거리란 ?

i번재와 j번째 개체 사이의 거리는 dij

(2) 거리측정방법
- 비유사성 : 유클리드거리

- 그 외 City Block Distince, Minkowski Distince도 있으니
개념이해를 위한 아래글 참고

http://blog.naver.com/hero1014/20198091159

- 유사성 : 자카드거리

3. 군집의 유형

1) 상호배반적disjoint 군집 : 한국인 일본인

2) 계층적hierarchical 군집 : 종-속-과-목

3) 중복overlapping 군집 : 두 개 이상의 군집에 한 관찰치가 동시에 소속

4) 퍼지Fuzzy 군집 : 소속된 특정 군집이 아니라 각 군집에 속할 '가능성'을 표현

4. 군집분석시 유의할 사항

1) 이상치outlier에 상당히 민감. 미리 제거할 것.

2) 초기군집수의 설정이 잘못되면 좋은 결과를 얻을 수 없다

3) 아래그램 (b) b와 c는 한 그룹임에도, 단순히 유클리드 거리로 측정할 경우 b는 a와 더 가까워 보인다. 따라서 여러 군집방법을 통해 유사한 결과가 나오는지 확인해야 함.

5. 군집분석의 종류

1) 계층적 Hierarchial 군집분석 : 가장 가까운 개체들을 하나씩 묶어나감, 가장 마지막에 모든 개체를 하나의 군집으로 만듬 --> 덴트로그램으로 표현 가능

단점은.. 한번 잘못 묶이면 되돌릴 수 없다잉

2) 최적분리 군집분석 : 미리 결정한 군집의 개수에 맞춰서 클러스터링. 더 상세한 '최적분리 군집분석'은 다음 글로 이어집니다잉

저작자표시 비영리 변경금지

현재글Cluster Analysis : (1) 개념

Nulla in Mundo Pax Sincera

투자,데이터분석,음악

티스토리챌린지, Being Boring, 자기호감, 자기중요감, 얄개들, 왓슨 Ibm, JVRF, 말하는건축가, 오블완, 정기용, 부산 부산여행 스파랜드, 여행, max/msp, 왓슨 인간의 사고를 시작하다, 이작 펠만, 자기유능감, 이작 펠먼, 우리같이, Veuve Clicquot, 기술,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Nulla in Mundo Pax Sincera

Cluster Analysis : (1) 개념

'Data analysis'의 다른글

티스토리툴바

Cluster Analysis : (1) 개념

'Data analysis'의 다른글

관련글

티스토리툴바