첫 프로젝트를 이렇게 광범위하고 재밌는 주제로 시작하게 되어 영광이다.
스터디차원에서 오늘은 데이터마이닝 프로세스에 대해 정리하겠다.
(참고서적 : '빅데이터 분석을 위한 데이터 마이닝 방법론', 자유아카데미)
=================================================
1. 프로젝트 수행계획수립
2. 데이터 이해
3. 데이터 준비
4. 데이터 분석 및 모형화
5. 적용 및 평가
==================================================
1. 프로젝트 수행계획수립
- 통계적 모형은 '추론'을 위한 것이라면, 데이터마이닝은 '일반화'를 위한 것
2. 데이터 이해
- Data의 Type
1. Descriptive 서술적 데이터
2. Behavioral 행동특성 데이터
3. Attitudinal 태도특성 데이터
3. 데이터 준비
- 사전처리 방법
1. 재배열
2. 요약변수 : RFM 측적용
3. 파생변수 생성
4. 그룹화 : 변수 차원축소 목적
1) 범주형 변수의 재그룹화(Regrouping)
2) 연속형 변수의 구간화(Binning)
- 데이터 탐색
1. 오류 (Error)
변수가 가질 수 없는 값, 변수값의 불가능한 조합, 일관성 없는 코드값, 잘못된 코드값, 정상이 아닌 자료값 등
--> 데이터값 변경 및 데이터 표준화(정규화)
2. 결측값(Missing)
--> 필요시 자료 보정
보정방법 1) 단일값 대체 : 해당 변수의 평균, 중앙값, 최빈값 등으로 결측값 대체
2) 클래스 대체 : 다른 집단 정보를 활용. 예를 들어 동질한 연령과 직업 범주에 속하는 사람들의 평균, 중앙값, 최빈값 등으로 대체
3) 다변량적 대체 : 회귀분석 및 의사결정나무분석과 가튼 통계적 기법 활용
3. 이상치(Outlier)
예측모형에서 제외하거나 값 대체(연령 123살은 100살로 대체), 혹은 그룹화(123살은 60세이상 범주로)
4. 데이터 분석 및 모형화
- 목표변수가 존재하는 경우 지도supervised예측, 존재하지 않은 경우 자율Unsupervised예측
1. 지도Supervised 예측
- 입력변수(독립변수)로부터 목표변수(종속변수)을 '예측'하는 모형(혹은 규칙)을 개발하기 위한 것
- 구분
1) 목표변수 범주형(질적)
- 목표변수 각 범주에 대한 가능성(확률)을 예측, 예측모형을 통해 새로운 개체를 분류
2) 목표변수 연속형(양적)
- 목표변수 값을 예측 (예를 들어 구매금액)
- 종류 : 판별분석, 회귀분석, 의사결정나무분석, 신경망분석, 시계열분석
2. 자율Unsupervised 예측
- 목표변수가 명확하게 정의되지 않았으므로 규칙 찾기보다는 데이터의 특징을 파악하기 위한 목적
- 종류 : 군집분석 ~ Customer Segmentation, Life style
5. 적용 및 평가