推荐算法之—关联规则

项集的介绍

itemset:即一个人买了牛奶,又买了面包,那么{牛奶,面包}就是个项集 有两项 就是2-itemset

推荐算法之—关联规则

支持度与置信度

支持度:通俗点说就是一个所有商品中 当前商品所在占的比重

推荐算法之—关联规则

置信度(一种条件概率)

置信度:例如买了啤酒和尿布的数量与啤酒或者尿布的比率 此时是相对于谁的执行度。通俗点就是买了啤酒的人 买尿布的概率 。但是需要主要 本来买尿布的支持度是50% 但是买了啤酒又买尿布的置信度是45% 显然这个不怎么好

推荐算法之—关联规则

Apriori算法

由于一个项可以与其他项相组合 那么组合的结果会很复杂 如下图所示,Apriori算法需要解决的问题就是对其剪枝,过滤掉不符合的 。 

推荐算法之—关联规则
平凡项:支持度大于一定值才是频繁项
Apriori算法关键思想:1.如果一个集合如果是平凡的,那么它的所有子项也都是平凡的 2.如果一个子项不平凡那么由它构成的集成也不平凡
推荐算法之—关联规则
如果B是不平凡的那么:
推荐算法之—关联规则
Apriori算法生成网络的过程:先生成一定大小的平凡项,然后两两组合,对于每个组合项去数据库中扫描统计,检测下它是不是平凡项,再然后size+1 继续
推荐算法之—关联规则
Apriori 生成由size到size+1
大集合中 选择两个小集合 如果小几个的前K-1个相同 第K个不同 那么不同的部分就提上去 但是需要每个元素都在大集合中才行
推荐算法之—关联规则

序列模式

注意:在序列模式中,子序列元素出现顺序与其父序列的出现顺序是一样的
推荐算法之—关联规则
与非序列模式相似,对于候选序列的生成方法:从端序列开始 找到相似部分,剩下的那个不相似的提上去,饭后
推荐算法之—关联规则
选完之后 需要Pruning 例如Candidate的第一个 1,3,4不在序列中 所以不是
推荐算法之—关联规则