关联规则

参考:http://blog.****.net/eastmount/article/details/53368440

1.关联规则

关联规则（Association Rules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。

2.置信度与支持度

支持度（suppport）：是交易集中同时包含A和B的交易数与所有交易数之比。
Support(A=>B)=P(A∪B)=count(A∪B)/|D|
置信度（confidence）：是包含A和B交易数与包含A的交易数之比。
Confidence(A=>B)=P(B|A)=support(A∪B)/support(A)

(3) 支持度
支持度（Support）计算在所有的交易集中，既有A又有B的概率。例如在5条记录中，既有橙汁又有可乐的记录有2条。则此条规则的支持度为 2/5=0.4，即：
Support(A=>B)=P(AB)
现在这条规则可表述为，如果一个顾客购买了橙汁，则有50%(置信度)的可能购买可乐。而这样的情况（即买了橙汁会再买可乐）会有40%（支持度）的可能发生。

关联规则

(4) 置信度
置信度（confidence）表示了这条规则有多大程度上值得可信。设条件的项的集合为A,结果的集合为B。置信度计算在A中，同时也含有B的概率（即：if A ,then B的概率）。即：
Confidence(A=>B)=P(B|A)
例如计算“如果Orange则Coke”的置信度。由于在含有“橙汁”的4条交易中，仅有2条交易含有“可乐”，其置信度为0.5。

(5) 最小支持度与频繁集
发现关联规则要求项集必须满足的最小支持阈值，称为项集的最小支持度（Minimum Support），记为supmin。支持度大于或等于supmin的项集称为频繁项集，简称频繁集，反之则称为非频繁集。通常k-项集如果满足supmin，称为k-频繁集，记作Lk。关联规则的最小置信度（Minimum Confidence）记为confmin，它表示关联规则需要满足的最低可靠性。

(7) 强关联规则
如果规则R：X=>Y 满足 support(X=>Y) >= supmin 且 confidence(X=>Y)>=confmin，称关联规则X=>Y为强关联规则，否则称关联规则X=>Y为弱关联规则。
在挖掘关联规则时，产生的关联规则要经过supmin和confmin的衡量，筛选出来的强关联规则才能用于指导商家的决策。

二. Apriori算法挖掘频繁项集

关联规则对购物篮进行挖掘，通常采用两个步骤进行：
a.找出所有频繁项集（文章中我使用Apriori算法>=最小支持度的项集）
b.由频繁项集产生强关联规则，这些规则必须大于或者等于最小支持度和最小置信度。

面直接通过例子描述该算法：如下图所示，使用Apriori算法关联规则挖掘数据集中的频繁项集。（最小支持度计数为2）

具体过程如下所示：

具体分析结果：
第一次扫描：对每个候选商品计数得C1，由于候选{D}支持度计数为1<最小支持度计数2，故删除{D}得频繁1-项集合L1；
第二次扫描：由L1产生候选C2并对候选计数得C2，比较候选支持度计数与最小支持度计数2得频繁2-项集合L2；
第三次扫描：用Apriori算法对L2进行连接和剪枝产生候选3项集合C3的过程如下：
1.连接：
C3=L2 关联规则 (连接)L2={{A,C},{B,C},{B,E},{C,E}}{{A,C},{B,C},{B,E},{C,E}}={{A,B,C},{A,C,E},{B,C,E}}
2.剪枝：
{A,B,C}的2项子集{A,B},{A,C}和{B,C}，其中{A,B}不是2项子集L2，因此不是频繁的，从C3中删除；
{A,C,E}的2项子集{A,C},{A,E}和{C,E}，其中{A,E}不是2项子集L2，因此不是频繁的，从C3中删除；
{B,C,E}的2项子集{B,C},{B,E}和{C,E}，它的所有2项子集都是L2的元素，保留C3中。
经过Apriori算法对L2连接和剪枝后产生候选3项集的集合为C3={B,C,E}. 在对该候选商品计数，由于等于最小支持度计数2，故得频繁3-项集合L3，同时由于4-项集中仅1个，故C4为空集，算法终止。

相关推荐