数据挖掘-序列模式挖掘-prefixspan算法(样例)

数据挖掘-序列模式挖掘-prefixspan算法(样例)

数据挖掘-序列模式挖掘-prefixspan算法(样例)

数据挖掘-序列模式挖掘-prefixspan算法(样例)

数据挖掘-序列模式挖掘-prefixspan算法(样例)

数据挖掘-序列模式挖掘-prefixspan算法(样例)

数据挖掘-序列模式挖掘-prefixspan算法(样例)

数据挖掘-序列模式挖掘-prefixspan算法(样例)

数据挖掘-序列模式挖掘-prefixspan算法(样例)

所有结果:

数据挖掘-序列模式挖掘-prefixspan算法(样例)

数据挖掘-序列模式挖掘-prefixspan算法(样例)

    通俗来讲:可以以1-频繁项d为例,我们的思路讲解的很明白;这儿我们一般化我们的求解过程:

1)第一次扫描原始数据库,得到长度为1的频繁序列。f_list  = {a:4, b:4, c:4, d:3, e:3, f: 3}

2)从长度为1的频繁项开始,即从a,b,c,d,e,f开始(注意各个是独立的,分别开始)以a开始为例,第二次扫描原始数据库得到a的投影数据库。对a的投影数据库进行计数。计数结果:{a:2, b:4, c:4, d: 2, e:1,f:2, _d:1, _b:2, _f:1},符合支持度的与a结合,得到长度为2的序列。有<aa>, <ab>, <ac>, <ad>, <af>,<(ab)>.。注意除了以a开始,我们还有其他几个也要开始按照一样的思路进行。

3)同2中过程类似,对以a开始得到的长度为2的序列,扫描a的投影数据库,得到长度为2的各个频繁序列的投影数据库,再在各个投影数据库进行计数。

【注意】:递归思维。频繁序列-->从上一个投影数据库得到新的投影数据库--->频繁序列-->投影数据库.

数据挖掘-序列模式挖掘-prefixspan算法(样例)

参考:

https://www.cnblogs.com/pinard/p/6323182.html