大型数据库中的关联规则挖掘

什么是关联规则挖掘?

关联规则挖掘:
从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。

应用:
购物篮分析、分类设计、捆绑销售等

关联规则:基本概念

给定:
项的集合:I={i1,i2,…,in}
任务相关数据D是数据库事务的集合,每个事务T则是项的集合,使得
每个事务由事务标识符TID标识
A,B为两个项集,事务T包含A当且仅当大型数据库中的关联规则挖掘
则关联规则是如下蕴涵式:
大型数据库中的关联规则挖掘
其中 大型数据库中的关联规则挖掘 并且 大型数据库中的关联规则挖掘 ,规则 大型数据库中的关联规则挖掘 在事务集D中成立,并且具有支持度s置信度c

基本概念——示例

项的集合 I={A,B,C,D,E,F}
每个事务T由事务标识符TID标识,它是项的集合
比如:TID(2000)={A,B,C}
任务相关数据D是数据库事务的集合
大型数据库中的关联规则挖掘

大型数据库中的关联规则挖掘

大型数据库中的关联规则挖掘

大型数据库中的关联规则挖掘

k-项集 基本概念

k-项集:包含k个项的集合
例:{牛奶,面包,黄油}是个3-项集

项集的频率是指包含项集的事务数
如果项集的频率大于(最小支持度×D中的事务总数),则称该项集为频繁项集

大型数据库中的关联规则挖掘包含两个过程:

  1. 找出所有频繁项集 大部分的计算都集中在这一步
  2. 由频繁项集产生强关联规则 即满足最小支持度和最小置信度的规则

关联规则挖掘分类

大型数据库中的关联规则挖掘
大型数据库中的关联规则挖掘
大型数据库中的关联规则挖掘