프로세스
1. 형성 : 분리기준과 정지규칙 지정
2. 가지치기
3. 타당성 평가
4. 해석 및 예측
(참고서적 : '빅데이터를 위한 데이터 마이닝 방법론', 자유아카데미)
===================================================
1. 형성 : 분리기준과 정지규칙 지정
1. 의사결정나무의 분리기준
- 순수도 purity(<->불순도imprity) : 목표변수의 특정 범주에 개체들이 포함되어 있는 정도
- 부모마디의 순수도에 비해 자식마디의 순수도가 증가하도록 자식마디를 형성해 나가게 된다
- 분리기준 : 부모마디의 순수도에 비해 자식마디의 순수도가 증가하는 정도를 수치화한 것
1) [Classification Tree 분류나무] 목표변수가 이산형(범주형) : 목표변수의 각 범주에 속하는 빈도에 따라 분리
A.p-value of Chi-Square statistic : p-값이 가장 작은 예측변수와 그때의 최적분리에 의해
B.지니지수 : 지니지수(불순도 측정)를 가장 감소시켜주는 예측변수와 그때의 최적분리에 의해
C.엔트로피 지수 : 다항분포에서 우도비 검정통계량을 사용하는 것
2) [Regression Tree 회귀나무] 목표변수가 연속형 : 목표변수의 평균과 표준편차에 따라 분리
A.p-value of F-값 : p-값이 가장 작은 예측변수와 그때의 최적분리에 의해
B.분산 감소량(Variance Reduction) : 예측오차 최소화하는 것과 동일한 기준으로 분산의 감소량을
최대화하는 기준의 최적분리에 의해
- e.g. 자식마디가 성별에 따라 나뉜 경우, 남자의 구매금액 평균이 여자의 구매금액 평균보다 낮음을 알 수 있는 것처럼
2. 가지치기 pruning
- 왜 ? 지나치게 많은 마디를 가진 경우 새로운 자료에 적용시 예측오차가 매우 클 가능성이 있다
- 방법 두 가지
1) '의사결정트리' 노드의 속성 중 '리프크기'에 25 입력 : 25보다 적은 개체수 가지는 '마디 생기지 않게' 설정
2) '의사결정트리' 노드 속성 중 '분리크기Split size'에 100 입력 : 개체수가 100보다 적은 마디는 '더이상 분리가 일어나지 않도록' 설정
3. 타당성 평가
4. 해석 및 예측
- 의사결정나무분석의 특징
+ 1) 해석이 쉽다 : 목표변수 설명에 어떤 입력변수가 중요한지 손쉽게 파악
+ 2) 교호작용 효과 해석 : 교호작용interaction이나 비선형성nonlinearit을 자동적으로 찾아내는 알고리즘
+ 3) 비모수적 모형 = 가정(선형성,정규성,등분산성) 만족 필요 X , 또한 연속형/순서형 변수의 경우 순위(rank)만 분석에 영향 미치므로 outlier에 민감하지 않다
- 1) 연속형 변수를 비연속적인 값으로 취하기 때문에 분리의 경계근방에서는 예측오류 클 수 있다
- 2) 비선형의 한계 : 선형모델에서는 main effect는 다른 예측변수와 관련시키지 않고서도 각 변수의 영향력을 해석할 수 있다는 장점이 있으나, 의사결정나무에서는 이런 결과를 얻을 수 업사
-3) 비안정성 : training data이 아닌 다른 새로운 자료 예측에서는 unstable할 가능성이 높다 -> validation data를 이요해 교차타당성 평가할 것