SPSS Modeler 建模前准备—样本管理与分区(指南 第十一章)
在数据挖掘的过程中,数据量往往都比较庞大,因此在数据探索阶段如果能对数据进行适当的抽样将能大大提高建模的效率,同时,用户在建模过程中经常需要对数据样本进行分区,以便后续进行建模评估。
1. 样本管理
样本节点实现数据抽样
1.1 样本节点选项卡
1.11 简单抽样
1.12 复杂抽样
例1:
数据中有青年、中年、老年不同年龄级别的客户,其中老年人是较少的,为了避免随机抽取时老年人抽取不到或很少,可以使用分层抽取,使数据在4个年龄段人群中分别抽取N%。
如上图,样本大小按照比例抽取,固定0.5(50%),筛选的数据就是每个不同年龄级别分别随机抽取50%的样本数据。
如上图,样本大小按照比例抽取,指定抽取的大小,筛选的数据就是每个不同年龄级别分别按照输入的样本百分比进行抽取。
例2:
购物篮分析,数据格式见下表。
如果要抽取样本数据,会出现同一订单有的被抽取到了,有的没有被抽取到,这样就会影响购物篮分析的真实结果,所以在样本选择时,指定聚类的字段即可。
2. 数据分区
在实际进行数据挖掘中,用户并不能事先获取未来的数据进行评估,因此为了能够准确地评估现有模型的预测性能,一般会把现有的数据集分为两部分:
(1)训练集:进行模型训练;
(2)测试集:用于模型准确率的评估。
在建模之前,用户不知道如何选择参数能够获得最优模型,因此还可以多划分一个验证集,用于选择模型的超参数。
分区节点实现数据分区
案例:Demo文件下的”bankloan.sav“数据文件
数据流:
分区节点设置: