六 关联分析:基本概念和算法1
啤酒尿布问题
6.1 问题定义
二元表示:
项集、事务和支持度计数:包含0个或多个项的集合被称为项集,k-项集;真实存在的项集称为事务;包含特定项集的事务个数称为项集的支持度计数。
关联规则:蕴含表达式X->Y
关联规则的强度:支持度和置信度,支持度可以用于给定数据集的频繁程度,置信度确定Y包含X的事务中出现的频繁程度。
关联规则挖掘问题的形式化描述:
6.2 频繁项集的产生
候选项集,通过比较候选项集包含在事务中来增加支持度计数。
(1)减少候选项集的数目
(2)较少比较次数
6.2.1 先验原理
描述如何使用支持度度量,来减少频繁项集产生需要探查的候选项集的个数。
基于支持度的剪枝;一个项集的支持度绝不会超过它的子集的支持度。
6.2.2 Apriori算法的频繁项集的产生
基于支持度的剪枝计数,系统控制候选项集指数增长。