Data analysis 28

상품추천모델

1. 히든 니즈의 공통코드를 찾아야함 Ex) 비싼 수입물 - 과시형? 건강형? 2. Correlation을 통한 Collaborative Filtering Independent와 달리 다른 사람들과 연관하여 추천하는 방법 1) user-based filtering 2) item-based ~ 연관구매상품 분석 3. 추천은 '거리'의 개념 1) ​user-based filtering Ex) 책 평점을 가장 적게 차이나게 매긴 사람끼리 유사하다고 본다 - 누군가에게 무엇인가를 추천하기 위해서 가장 비슷하거나 가까운 사람을 찾아야 한다 가장 가까운 사람이 읽은 책 중 가장 높은 평점을 준 책을 추천 [아마존] - KNM : k nearest mean - Manhattan distance / ..

Data analysis 2015.12.19

군집화 강의

군집화 강의 1. 파생변수는 '의미'로부터 나온다 --> 왜 의미있는건가? 예시 > 아파트 평형 : life stage 를 추정할 수 있기 때문에 2. 클러스터링은 '거리' 개념 3.클러스터링 할 때는 항상 정규화 시킬 것 (키와 몸무게는 100kg 차이) 4. 군집화 모델링 가설 도출 -> 가설적 후보 변수 도출 -> 의미있는지 확인하여 핵심 변수 core variables 확정 5. 범주형변수는 SOM 쓰는 게 좋다고 - SOM self organizing map (Kohonen feature map) 6. 사례 니즈 라이프 사이클이나 고객/라이프 밸류와 합쳐지면 전략이 나오고 세그의 전이를 보면 방안이 나온다 크 ㅜㅠ 이 부분 감동

Data analysis 2015.12.19

연관성 규칙 발견

장바구니 분석 중, 변수간 인과관계 x 연관성 o 보기 위한 탐색적 방법 1. 지지도 = 두 개의 사건이 동시에 일어날 확률 ( 0 ≤지지도≤ 1 ) - 포함성(P(A))이 높으면서 연관성이 높은 항목 찾을 수 잇음↓ ↓ 포함률이 낮으면서 연관성이 높은 항목은? ↓2. 신뢰도 = 항목 A를 구매했을 경우 B를 구매하는 확률은 얼마인가? ( 0 ≤신뢰도≤ 1 ) - 주의 : confidence(A⇒B) ≠ confidence(B⇒A) ↓↓ 여기서 도출된 연관성이 우연의 결과는 아닌지? (많이 팔렸을 뿐 연관성이 높지 않을수도)↓3. 향상도 = 우연에 의한 연관성의 정도 ( 0 ≤신뢰도≤ 1 ) ○ Pr(B|A) 항목A를 구매하였을 때 항목B의 구매확률○ Pr(B) 항목A 구매고려하지않고 항목B의 구매확률-..

Data analysis 2015.08.14

Cluster Analysis : (2) k-Means Clustering

최적분리 군집분석은 '정량적' 변수들 사이에 계산한 유클리드 거리를 기초로 군집을 형성한다. 1. k-Means Clustering Process 초기값 선택 : 주어진 군집의 개수 k를 아예 초기값으로 선택하거나, 혹은 ↓ k보다 많은 초기값을 각 변수의 표준편차 간격으로 고르고 오차제곱합 기반 기준 충족될 ↓ 때까지 군집의 수를 감소시킨다 ↓초기 군집 형성 : 각 개체의 초기값(중심)과의 거리가 가장 가까운 쪽에 할당, 할당한 후 ↓ 그 집단의 초기값(중심)을 그 집단의 평균벡터로 재설정 ↓ ↓재할당 : 각 개체를 가장 가까운 군집중에 재할당하고 군집의 중심(평균백터) 다시 계산하는 과정을 군집중심들의 변화가 일정 수준 이하가 될 때까지 반복하여 최종군집 형성 2. E-miner Flow 구성 dat..

Data analysis 2015.08.14

Cluster Analysis : (1) 개념

가정이나 목적 없이도 개체간 유사성 or 거리를 탐색해보는 군집분석 1. 군집분석 개념 특별한 목적 없이유사한 개체들을 그룹화하여 각 집단의 성격을 파악함으로서 데이터 전체 구조에 대한 이해를 돕고자 하는 탐색적 데이터분석 방법 - 핵심 : 동일한 군집의 개체들은 유사한 성격을 갖도록, 서로 다른 군집의 대체들은 서로 다른 성격을 갖도록 2. 거리 Distance : 비유사성의 측도 1) 분석대상 변수 유형 (1) 이산형 ok!! : 최소한 순서형 범주를 갖는 '이산형' 변수까지 분석대상으로 한닥 (2) 범주형 음... : 서로 다른 범주에 속한 '불일치수'가 몇 번인지 센다 ※ E-miner에서는 명목형 변수에 대해 가변수를 만든 후 유클리드 거리를 계산하여 사용한다 (3) 이산형+범주형 ㅠ.ㅜ no~..

Data analysis 2015.08.14

Decision Tree Analysis

프로세스 1. 형성 : 분리기준과 정지규칙 지정2. 가지치기3. 타당성 평가4. 해석 및 예측 (참고서적 : '빅데이터를 위한 데이터 마이닝 방법론', 자유아카데미)=================================================== 1. 형성 : 분리기준과 정지규칙 지정 1. 의사결정나무의 분리기준 - 순수도 purity(불순도imprity) : 목표변수의 특정 범주에 개체들이 포함되어 있는 정도 - 부모마디의 순수도에 비해 자식마디의 순수도가 증가하도록 자식마디를 형성해 나가게 된다 - 분리기준 : 부모마디의 순수도에 비해 자식마디의 순수도가 증가하는 정도를 수치화한 것 1) [Classification Tree 분류나무] 목표변수가 이산형(범주형) : 목표변수의 각 범주에 속..

Data analysis 2015.08.01

CRM Project를 시작하며

첫 프로젝트를 이렇게 광범위하고 재밌는 주제로 시작하게 되어 영광이다. 스터디차원에서 오늘은 데이터마이닝 프로세스에 대해 정리하겠다.(참고서적 : '빅데이터 분석을 위한 데이터 마이닝 방법론', 자유아카데미) =================================================1. 프로젝트 수행계획수립2. 데이터 이해3. 데이터 준비 4. 데이터 분석 및 모형화5. 적용 및 평가================================================== 1. 프로젝트 수행계획수립 - 통계적 모형은 '추론'을 위한 것이라면, 데이터마이닝은 '일반화'를 위한 것 2. 데이터 이해 - Data의 Type 1. Descriptive 서술적 데이터2. Behavioral 행동특성..

Data analysis 2015.08.01

20150216 cannibalization의 판단기준

신규 브랜드를 출시하거나, 라인 확장(line extension), 자사 브랜드 share 가져오는경우 발생 (단 line extension 의 목적에 따라 달라진다 1) 모브랜드의 경쟁력 약화에 따른 시장 수성 2) 새로운 시장의 개척 및 진입 ) 1) 기업 내 동일 시장에서 경쟁하는 브랜드가 없는 경우 모 브랜드의 m/s + extension brand's m/s 2) 기업 내에 동일 시장에서 경쟁하는 브랜드가 있는 경우 a + aa 와 a+aa+b(동일 브랜드) 점유율 비교 대표적인 모델은 Urba&Hauser의 assesor(모델 (1993) 카니발레이제이션을 측정하기 위해서는 우선 확장 제품이 출시되지 않았다는 가정한 상태의 마켓 쉐어와 세일즈 볼ㄹㅁ을 추정하여야 한다. 그리고 실제 '확장 후의..

Data analysis 2015.02.16