数据挖掘-序列模式挖掘-PrefixSpan算法(ppt版本)

PrefixSpan算法

数据挖掘-序列模式挖掘-PrefixSpan算法(ppt版本)

通俗来讲:前缀prefix就是序列数据前面部分的子序列

数据挖掘-序列模式挖掘-PrefixSpan算法(ppt版本)

后缀:对于某一个前缀,序列中除去前缀后面剩下的子序列就是我们的后缀。

数据挖掘-序列模式挖掘-PrefixSpan算法(ppt版本)

投影数据库:假设alpha是序列数据库 S的一个序列模式,那么alpha的投影数据库就是它在S 中关于前缀alpha的序列的后缀的集合。

投影数据库的支持度:相当于现在beta(beta是一个带前缀alpha的序列)支持度不是再在原始数据库中去找了,而是在alpha的投影数据库里面找了。

数据挖掘-序列模式挖掘-PrefixSpan算法(ppt版本)

思想:之前计算某一个(候选)序列的支持度计数,都是拿着该(候选)序列去原始数据库里面去找,但是有了投影数据库的概念,我们上面证明了该(候选)序列在原始数据库中的计数等于该(候选)序列在与之对应的投影数据库中的计数。我们的prefixspan算法中就是在投影数据库里面计数支持度的。

数据挖掘-序列模式挖掘-PrefixSpan算法(ppt版本)

一个递归的过程。频繁序列->投影序列->频繁序列->投影数据库->.......

数据挖掘-序列模式挖掘-PrefixSpan算法(ppt版本)

数据挖掘-序列模式挖掘-PrefixSpan算法(ppt版本)

关键:不用产生候选序列,也不用判断是否有候选序列的存在

数据挖掘-序列模式挖掘-PrefixSpan算法(ppt版本)

数据挖掘-序列模式挖掘-PrefixSpan算法(ppt版本)

伪投影数据库技术

参考:

https://wenku.baidu.com/view/ee189b72f46527d3240ce0f9.html