PrefixSpan算法

数据挖掘-序列模式挖掘-PrefixSpan算法（ppt版本）

通俗来讲：前缀prefix就是序列数据前面部分的子序列

数据挖掘-序列模式挖掘-PrefixSpan算法（ppt版本）

后缀：对于某一个前缀，序列中除去前缀后面剩下的子序列就是我们的后缀。

数据挖掘-序列模式挖掘-PrefixSpan算法（ppt版本）

投影数据库：假设alpha是序列数据库 S的一个序列模式，那么alpha的投影数据库就是它在S 中关于前缀alpha的序列的后缀的集合。

投影数据库的支持度：相当于现在beta（beta是一个带前缀alpha的序列）支持度不是再在原始数据库中去找了，而是在alpha的投影数据库里面找了。

数据挖掘-序列模式挖掘-PrefixSpan算法（ppt版本）

思想：之前计算某一个（候选）序列的支持度计数，都是拿着该（候选）序列去原始数据库里面去找，但是有了投影数据库的概念，我们上面证明了该（候选）序列在原始数据库中的计数等于该（候选）序列在与之对应的投影数据库中的计数。我们的prefixspan算法中就是在投影数据库里面计数支持度的。

数据挖掘-序列模式挖掘-PrefixSpan算法（ppt版本）

一个递归的过程。频繁序列->投影序列->频繁序列->投影数据库->.......

数据挖掘-序列模式挖掘-PrefixSpan算法（ppt版本）

关键：不用产生候选序列，也不用判断是否有候选序列的存在

数据挖掘-序列模式挖掘-PrefixSpan算法（ppt版本）

伪投影数据库技术

参考：