Data analysis

CRM Project를 시작하며

keepgroovin' 2015. 8. 1. 14:43

첫 프로젝트를 이렇게 광범위하고 재밌는 주제로 시작하게 되어 영광이다.


스터디차원에서 오늘은 데이터마이닝 프로세스에 대해 정리하겠다.

(참고서적 : '빅데이터 분석을 위한 데이터 마이닝 방법론', 자유아카데미)


=================================================

1. 프로젝트 수행계획수립

2. 데이터 이해

3. 데이터 준비 

4. 데이터 분석 및 모형화

5. 적용 및 평가

==================================================


1. 프로젝트 수행계획수립

 - 통계적 모형은 '추론'을 위한 것이라면, 데이터마이닝은 '일반화'를 위한 것


2. 데이터 이해

 - Data의 Type

1.  Descriptive 서술적 데이터

2.  Behavioral 행동특성 데이터

3.  Attitudinal 태도특성 데이터


3. 데이터 준비 

  - 사전처리 방법

1. 재배열

2. 요약변수 : RFM 측적용 

3. 파생변수 생성

4. 그룹화 : 변수 차원축소 목적

1) 범주형 변수의 재그룹화(Regrouping)

2) 연속형 변수의 구간화(Binning)

  - 데이터 탐색 

1. 오류 (Error)

변수가 가질 수 없는 값, 변수값의 불가능한 조합, 일관성 없는 코드값, 잘못된 코드값, 정상이 아닌 자료값 등

--> 데이터값 변경 및 데이터 표준화(정규화)

2. 결측값(Missing)

--> 필요시 자료 보정 

     보정방법 1) 단일값 대체 : 해당 변수의 평균, 중앙값, 최빈값 등으로 결측값 대체

                2) 클래스 대체 : 다른 집단 정보를 활용. 예를 들어 동질한 연령과 직업 범주에 속하는 사람들의 평균, 중앙값, 최빈값 등으로 대체 

   3) 다변량적 대체 : 회귀분석 및 의사결정나무분석과 가튼 통계적 기법 활용

3. 이상치(Outlier)

예측모형에서 제외하거나 값 대체(연령 123살은 100살로 대체), 혹은 그룹화(123살은 60세이상 범주로)

 

4. 데이터 분석 및 모형화

- 목표변수가 존재하는 경우 지도supervised예측, 존재하지 않은 경우 자율Unsupervised예측

1. 지도Supervised 예측

  - 입력변수(독립변수)로부터 목표변수(종속변수)을 '예측'하는 모형(혹은 규칙)을 개발하기 위한 것

  - 구분

1) 목표변수 범주형(질적) 

 - 목표변수 각 범주에 대한 가능성(확률)을 예측, 예측모형을 통해 새로운 개체를 분류

2) 목표변수 연속형(양적) 

 - 목표변수 값을 예측 (예를 들어 구매금액) 

  - 종류 : 판별분석, 회귀분석, 의사결정나무분석, 신경망분석, 시계열분석  


2. 자율Unsupervised 예측

 - 목표변수가 명확하게 정의되지 않았으므로 규칙 찾기보다는 데이터의 특징을 파악하기 위한 목적

 - 종류 : 군집분석 ~ Customer Segmentation, Life style 


5. 적용 및 평가

   - 신뢰성, 타당성, 유용성 평가
 향상도 그래프(Lift Chart), ROC(Receiver Operaing Characteristic) 곡선, Profit Chart, ROI 곡선 등 
   - 애초에 데이터 셋을 만든다(데이터 분할 Data Partition) 
     1) 분석용 Training Data : 모형용
     2) 평가용 Validation Data : 간접 사용 예를 들어 의사결정트리노드의 가지치기, 회귀 노드의 변수선택, 신경망 노드의 수렴값 결정 등 
     3) 검증용 Test Data : 일반화 검토 위해 남겨두는 데이터