大型数据库中的关联规则挖掘
什么是关联规则挖掘?
关联规则挖掘:
从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。
应用:
购物篮分析、分类设计、捆绑销售等
关联规则:基本概念
给定:
项的集合:I={i1,i2,…,in}
任务相关数据D是数据库事务的集合,每个事务T则是项的集合,使得
每个事务由事务标识符TID标识;
A,B为两个项集,事务T包含A当且仅当
则关联规则是如下蕴涵式:
其中 并且
,规则
在事务集D中成立,并且具有支持度s和置信度c
基本概念——示例
项的集合 I={A,B,C,D,E,F}
每个事务T由事务标识符TID标识,它是项的集合
比如:TID(2000)={A,B,C}
任务相关数据D是数据库事务的集合
k-项集 基本概念
k-项集:包含k个项的集合
例:{牛奶,面包,黄油}是个3-项集
项集的频率是指包含项集的事务数
如果项集的频率大于(最小支持度×D中的事务总数),则称该项集为频繁项集
大型数据库中的关联规则挖掘包含两个过程:
- 找出所有频繁项集 大部分的计算都集中在这一步
- 由频繁项集产生强关联规则 即满足最小支持度和最小置信度的规则