CRM Project를 시작하며

Data analysis

CRM Project를 시작하며

keepgroovin' 2015. 8. 1. 14:43

첫 프로젝트를 이렇게 광범위하고 재밌는 주제로 시작하게 되어 영광이다.

스터디차원에서 오늘은 데이터마이닝 프로세스에 대해 정리하겠다.

(참고서적 : '빅데이터 분석을 위한 데이터 마이닝 방법론', 자유아카데미)

=================================================

1. 프로젝트 수행계획수립

2. 데이터 이해

3. 데이터 준비

4. 데이터 분석 및 모형화

5. 적용 및 평가

==================================================

1. 프로젝트 수행계획수립

- 통계적 모형은 '추론'을 위한 것이라면, 데이터마이닝은 '일반화'를 위한 것

2. 데이터 이해

- Data의 Type

1. Descriptive 서술적 데이터

2. Behavioral 행동특성 데이터

3. Attitudinal 태도특성 데이터

3. 데이터 준비

- 사전처리 방법

1. 재배열

2. 요약변수 : RFM 측적용

3. 파생변수 생성

4. 그룹화 : 변수 차원축소 목적

1) 범주형 변수의 재그룹화(Regrouping)

2) 연속형 변수의 구간화(Binning)

- 데이터 탐색

1. 오류 (Error)

변수가 가질 수 없는 값, 변수값의 불가능한 조합, 일관성 없는 코드값, 잘못된 코드값, 정상이 아닌 자료값 등

--> 데이터값 변경 및 데이터 표준화(정규화)

2. 결측값(Missing)

--> 필요시 자료 보정

보정방법 1) 단일값 대체 : 해당 변수의 평균, 중앙값, 최빈값 등으로 결측값 대체

2) 클래스 대체 : 다른 집단 정보를 활용. 예를 들어 동질한 연령과 직업 범주에 속하는 사람들의 평균, 중앙값, 최빈값 등으로 대체

3) 다변량적 대체 : 회귀분석 및 의사결정나무분석과 가튼 통계적 기법 활용

3. 이상치(Outlier)

예측모형에서 제외하거나 값 대체(연령 123살은 100살로 대체), 혹은 그룹화(123살은 60세이상 범주로)

4. 데이터 분석 및 모형화

- 목표변수가 존재하는 경우 지도supervised예측, 존재하지 않은 경우 자율Unsupervised예측

1. 지도Supervised 예측

- 입력변수(독립변수)로부터 목표변수(종속변수)을 '예측'하는 모형(혹은 규칙)을 개발하기 위한 것

- 구분

1) 목표변수 범주형(질적)

- 목표변수 각 범주에 대한 가능성(확률)을 예측, 예측모형을 통해 새로운 개체를 분류

2) 목표변수 연속형(양적)

- 목표변수 값을 예측 (예를 들어 구매금액)

- 종류 : 판별분석, 회귀분석, 의사결정나무분석, 신경망분석, 시계열분석

2. 자율Unsupervised 예측

- 목표변수가 명확하게 정의되지 않았으므로 규칙 찾기보다는 데이터의 특징을 파악하기 위한 목적

- 종류 : 군집분석 ~ Customer Segmentation, Life style

5. 적용 및 평가

- 신뢰성, 타당성, 유용성 평가

향상도 그래프(Lift Chart), ROC(Receiver Operaing Characteristic) 곡선, Profit Chart, ROI 곡선 등

- 애초에 데이터 셋을 만든다(데이터 분할 Data Partition)

1) 분석용 Training Data : 모형용

2) 평가용 Validation Data : 간접 사용 예를 들어 의사결정트리노드의 가지치기, 회귀 노드의 변수선택, 신경망 노드의 수렴값 결정 등

3) 검증용 Test Data : 일반화 검토 위해 남겨두는 데이터

저작자표시 비영리 변경금지

현재글CRM Project를 시작하며

Nulla in Mundo Pax Sincera

투자,데이터분석,음악

Being Boring, 자기유능감, 티스토리챌린지, 자기호감, 왓슨 Ibm, 오블완, 부산 부산여행 스파랜드, 기술, 이작 펠먼, 말하는건축가, 얄개들, JVRF, 여행, 자기중요감, max/msp, 이작 펠만, 왓슨 인간의 사고를 시작하다, 정기용, Veuve Clicquot, 우리같이,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Nulla in Mundo Pax Sincera

CRM Project를 시작하며

'Data analysis'의 다른글

티스토리툴바

CRM Project를 시작하며

'Data analysis'의 다른글

관련글

티스토리툴바