Data analysis

상품추천모델

keepgroovin' 2015. 12. 19. 18:16



1. 히든 니즈의 공통코드를 찾아야함
Ex) 비싼 수입물 - 과시형? 건강형?

2. Correlation을 통한 Collaborative Filtering
Independent와 달리 다른 사람들과 연관하여 추천하는 방법
1) user-based filtering
2) item-based ~ 연관구매상품 분석

3. 추천은 '거리'의 개념

1) ​user-based filtering


Ex) 책 평점을 가장 적게 차이나게 매긴 사람끼리 유사하다고 본다

- 누군가에게 무엇인가를 추천하기 위해서 가장 비슷하거나 가까운 사람을 찾아야 한다
가장 가까운 사람이 읽은 책 중 가장 높은 평점을 준 책을 추천 [아마존]

- KNM : k nearest mean

- Manhattan distance / Euclidien Distance
(데이터의 모든 속성에 결 측값, 0이 거의 없음)

단, 결측값이 많은 경우에는 쓰면 안 돼

--->

(1) 저 두 거리를 일반화한 Minkowski distance Matrix 를 사용한다

(2) Cosine similarity : 양수 공간에서의 두 벡터의 유사한 정도를 내적 공간의 두 벡터간 각도를 코사인값으로 표현 (1: 똑같다 0: 전혀 다르다)

~ 데이터가 희박 (too mAny "0")

(3) 피어슨 Correlation Coefficient : (1: 완벽한 일치 0: 전혀 다르다 -1:완벽한 불일치)

~ 등급과 상관있을 때 , grade inflation



(-) 확장성의 문제 : 대상자가 너무 많은 경우에는 계산 오래걸려





2) item-based

(1) Association 법칙 활용하기도

(2) Adjusted cosine similarity
Predict what rating 유사한 음악이 준 평점들을 토대로 다른 유사한 음악에 줄 평점을 예측한다


3) Rating
(1) explicit rating : 좋아요 누른 횟수 - 평점 데이터를 구하기 쉬지않고 데이터 최신성 문제 등 한계가 많다
(2) implicit rating : 사용자 클릭수 관찰, 구매이력 데이터 - 컨슈머와 커스터머의 차이 생길 수 있음(나의 구매인지 선물용 구매인지)





3. 예시

1) 던험비 롤링볼 모델

- 던험비에선 상품을 연관성 분석하는데 아니라 상품을 40여개의 속성이 매칭한 다음에 상품sku단위가 아니라 속성 별로 추천함

팁) 보편재는 다른 점수를 주거나, 아예 빼고도 나머지 상품에서 독특한 거 찾아내려고 나머지 상품에 대해서만 연관성 분석을 하기도 해

- 선호도를 measure 하는 방법 : frequency 기준 이 다는 아니다 (하나를 산다고 1점을 줄수는 없지)

책 테스코의 기적 참고

- 스토리라인 : 속성 올라가면 --> 기능적인 편익과 연결 --> 기능은 심리적 편익( 효용) 과 연결 --> 가설적 핵심요인

- 편익요인별 설명변수 (직관적 변수, 추정변수) 풀 도출 --> 변수간 유의미 검증 --> factor analysis