본문 바로가기
Growth

[SAGE 연관분석 04] 1.3 연관분석의 5개 지표

by Diligejy 2022. 8. 14.

https://www.youtube.com/watch?v=tWaRjxPNVaQ&list=PLOkzefpQ0iON132z3bLTUTzJvQvil4nz-&index=4 

1. 지지도 (Support)

    a. 항목집합(itemset)이 거래 데이터(transaction) 내에서 나타날 확률,

        전체 거래 횟수에 대한 해당 항목집합 거래 횟수 비중으로 계산

    b. 지지도는 확률이므로 값의 범위는 [0, 1]

    c. 지지도는 발생빈도에 해당, 얼마나 자주 나타나는가를 판단

 

2. 지지도(Support) > 빈발 항목과 연관규칙 후보 도출

    a. 의미있는 분석을 위해서, 일정 기준 이상 등장하는 항목집합을 분석 최소 지지도(minimum support)를 기준으로 분석 항목 선정

    b. 최소 지지도 이상의 항목집합에서 연관규칙의 후보를 도출.

 

3. 신뢰도 (Confidence)

    a. X를 구매했을 때, Y를 구매할 확률,

        X가 구매될 확률에 대한 X와 Y가 함께 구매될 확률의 비중으로 계산

    b. 신뢰도도 확률이므로 값의 범위는 [0, 1]

    c. 신뢰도는 조건부 확률에 해당. 연관규칙의 방향을 판단

 

4. 신뢰도(Confidence) - 최소 신뢰도 이상의 연관규칙 선정

    a. 최소 지지도를 충족한 연관규칙 중, 최소 신뢰도(minimum confidence)를 충족한 연관 규칙을 의미있는 규칙으로 간주. 최소 지지도, 최소 신뢰도는 데이터를 관찰하며 결정

 

5. 향상도(lift)와 레버리지(Leverage)

    a. 하나의 항목 X가 다른 항목 Y의 구매를 결정하는데 얼마나 기여하는지를 파악하기 위해서, 독립적으로 Y를 구매한 경우와 비교.

    b. 향상도는 비율로, 레버리지는 차로 구함.

    c. 향상도는 비율이므로 값의 범위는 [0, 무한대), 레버리지는 두 확률의 차이므로 [-1, 1]

    d. 향상도 = 1, 레버리지 = 0일때 연관규칙은 독립시행과 같아지므로 설명력이 약해짐.

 

6. 확신(Conviction)

    a. 신뢰도는 X와 Y가 독립적일 경우, 우연에 의해 발생한 관계성을 구분하지 못함.

    b. 어떤 상품 X는 단순히 판매 빈도가 높아서 함께 자주 구매되고, 높은 신뢰도의 조건절이 될 수 있음.

    c. 이를 측정하기 위해서 X를 구매하고 Y를 구매하지 않는 경우를, 연관규칙에 의한 경우와 우연(독립시행)에 의한 경우의 비율을 비교

    d. 범위는 [0, 무한대)이며, 1보다 큰 값이 바람직하다 (1인 경우 X와 Y가 독립적)

    e. X를 구매하였으나 Y를 구매하지 않을 확률 P(Not Y | X) : 1 - P(Y|X) = 1 - Confidence(X => Y)

    f. 위 사건에서 X와 Y가 독립적일 경우 : 1 - P(Y|X) = 1 - P(X) * P(Y) / P(X) = 1 - P(Y) = 1 - Support(Y)

    e. Conviction(X => Y) = (1 - Support(Y)) / (1 - Confidence(X => Y))

댓글