장바구니 분석 중, 변수간 인과관계 x 연관성 o 보기 위한 탐색적 방법
1. 지지도
= 두 개의 사건이 동시에 일어날 확률 ( 0 ≤지지도≤ 1 )
- 포함성(P(A))이 높으면서 연관성이 높은 항목 찾을 수 잇음
↓
↓ 포함률이 낮으면서 연관성이 높은 항목은?
↓
2. 신뢰도
= 항목 A를 구매했을 경우 B를 구매하는 확률은 얼마인가? ( 0 ≤신뢰도≤ 1 )
- 주의 : confidence(A⇒B) ≠ confidence(B⇒A)
↓
↓ 여기서 도출된 연관성이 우연의 결과는 아닌지? (많이 팔렸을 뿐 연관성이 높지 않을수도)
↓
3. 향상도
= 우연에 의한 연관성의 정도 ( 0 ≤신뢰도≤ 1 )
○ Pr(B|A) 항목A를 구매하였을 때 항목B의 구매확률
○ Pr(B) 항목A 구매고려하지않고 항목B의 구매확률
- 그래서 값이,
1에 가까우면, 우연 즉, 독립에 가까운 사건
1보다 크면, 양의 연관성 ~ 빵과 버터
1보다 작으면, 음의 연관성 ~ 지사제와 변비약
4. 기타 : 비연관성과 음의 연관성
- '비연관성'으로 상호 연관성을 표현할 수 있다
e.g. 'C and D ⇒ E' 의 향상도가 1보다 작으면,
= ' C and D ⇒ not E' 처럼 '음의 연관성'으로 표현 가능
5. 시차 연관성규칙
- 동일한 고객이 시간이 지남에 따라 어떤 소비행태를 보이는가
- 시차가 있기 때문에 '연관성'+'인과관계'까지 얻어낼 수 있다.