地理信息|空间频繁模式与关联规则发掘

同样的,先从数据挖掘开始,然后结合地理上升到空间层面。

 

频繁模式:频繁出现在数据集中的模式(等于没说),如项集、子序列、子结构,对应频繁**,如频繁项集。

 

关联规则挖掘:发现大量数据中项集之间有趣的关联。

应用主要有购物篮分析、交叉销售、贩卖分析和分类设计。

 

简单来说就是通过数据观察两个类别的关系,如果关系大,就将这两件物品捆绑起来,最常见的就是商场的商品布局。最为经典的就是沃尔玛的啤酒与纸尿布故事了。美国新津妈妈在家照顾婴儿,爸爸下班顺便买纸尿布,商家在纸尿布旁放啤酒瓜子花生米,爸爸一看,甚得我心,顺手一捎,就是销量,沃尔玛大赚。

 

这个应用里最为重要的因素有两个:支持度和置信度。

支持度衡量规则的有用性,指用户同时买A和B的比例。

置信度衡量规则的确定性,指用户在买了A的基础上又买了B的比例(没错就是条件概率)。

 

接下来是关联规则的具体术语(科学家保持高冷的假把戏,看不看无所谓,狗头)

 

地理信息|空间频繁模式与关联规则发掘

 

地理信息|空间频繁模式与关联规则发掘

 


 

关联规则挖掘的步骤

  1. 找出所有频繁项集。

  2. 由频繁项集产生强关联规则。(支持度和置信度都达到阈值)

 

这里常用的一个算法是Apriori算法,算法思想:频繁项集的子集也一定频繁,最大的频繁项集不可能比频繁的1项项集更频繁。所以,先确定最小的支持度和置信度,先找到满足要求的1项集,然后互相取并,先取出存在的2项集,在选出满足支持度和置信度的2项集,往后同理,知道选出满足要求的最大频繁项集。

 

地理信息|空间频繁模式与关联规则发掘

 

除了强关联规则,还有其他模式,适合不同情况。

 

地理信息|空间频繁模式与关联规则发掘

 


 

          空间关联规则          

 

基本术语:

 

地理信息|空间频繁模式与关联规则发掘

 

挖掘方法包括为基于事物的空间关联规则挖掘(按空间实体之间同时出现的空间信息创建事物)、基于聚类的空间关联规则挖掘、邻域窗口处理和空间同类挖掘。

 

基于事物的空间关联规则挖掘采用RFCM模型:

  1. 计算各个目标空间对象与相关空间对象的空间谓词。

  2. 将同一个目标对象的所有谓词构成一个事务。

  3. 将所有空间谓词组织为一个事务数据库。

  4. 在谓词事务数据库中进行单层布尔型关联规则挖掘。

 

RFCM思想:空间谓词组织成一个粒度由粗到细的层次结构。先计算粗粒度的空间谓词,发现较高概念层次的模式与关联规则。然后自顶向下细化空间谓词,逐步发现较低概念层次的关联规则。

 

基于聚类的空间关联规则挖掘将每个空间属性作为一个点图层,对每个图层上的数据点进行聚类,针对聚类产生的空间簇(或区域)进行关联规则挖掘。有垂直视角方法和水平视角方法。

 

地理信息|空间频繁模式与关联规则发掘

 

空间同位规则(空间并置规则):地理空间中存在频繁的且紧密相邻出现的空间特征,如高速公路与辅路。