Data analysis

연관성 규칙 발견

keepgroovin' 2015. 8. 14. 18:28

장바구니 분석 중, 변수간 인과관계 x 연관성 o 보기 위한 탐색적 방법





 



1. 지지도 

= 두 개의 사건이 동시에 일어날 확률 ( 0 ≤지지도 1 )
- 포함성(P(A))이 높으면서 연관성이 높은 항목 찾을 수 잇음

↓ 

포함률이 낮으면서 연관성이 높은 항목은? 

2. 신뢰도 

= 항목 A를 구매했을 경우 B를 구매하는 확률은 얼마인가?  ( 0 ≤신뢰도 1 )

     - 주의 : confidence(AB)  confidence(BA) 

↓ 여기서 도출된 연관성이 우연의 결과는 아닌지? (많이 팔렸을 뿐 연관성이 높지 않을수도)

3. 향상도 

= 우연에 의한 연관성의 정도   ( 0 ≤신뢰도 1 )

         ○ Pr(B|A) 항목A를 구매하였을 때 항목B의 구매확률

○ Pr(B)    항목A 구매고려하지않고 항목B의 구매확률
- 그래서 값이,
1에 가까우면, 우연 즉, 독립에 가까운 사건
1보다 크면, 양의 연관성 ~ 빵과 버터 
1보다 작으면, 음의 연관성 ~ 지사제와 변비약

4. 기타 : 비연관성과 음의 연관성
- '비연관성'으로 상호 연관성을 표현할 수 있다 
  e.g. 'C and D ⇒ E' 의 향상도가 1보다 작으면,
= ' C and D ⇒ not E' 처럼 '음의 연관성'으로 표현 가능

5. 시차 연관성규칙 
- 동일한 고객이 시간이 지남에 따라 어떤 소비행태를 보이는가
- 시차가 있기 때문에 '연관성'+'인과관계'까지 얻어낼 수 있다.