SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介

SPSS Modeler18.0数据挖掘软件教程(一)

1、背景介绍

本人这学期担任导师《大数据应用与管理》课程助教,课程内容涉及大数据的概念、大数据下的基础算法(数据的描述性统计、回归分析、聚类分析、关联分析、社交网络分析、文本挖掘等等)。应课程要求,本人需要为学生安排上机实验,利用一门易上手的数据挖掘软件,教授基础的数据挖掘方法。
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介
经过和导师的讨论,我最终选择了SPSS Modeler18.0这款强大、易用的数据挖掘软件,在学习后,利用该软件教授了数据挖掘模型的构建、结果分析。接下来,在《SPSS Modeler18.0数据挖掘软件教程》系列中,我将详细讲解如何利用SPSS Modeler进行描述性统计、回归分析、分类分析、聚类分析、关联分析。

2、SPSS Modeler软件介绍

SPSS Modeler原名Clementine,是一个业界领先的数据挖掘平台,它将复杂的统计方法和机器学习技术应用到数据当中,具有专业性、易用性、扩展性、高性能等特点,提供了从各数据预处理到建模分析的一系列方法,包含图形可视化、描述性统计分析、常用的统计检验分析、回归分析、聚类分析、分类分析、关联分析、神经网络等多个模块。
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介
与利用R语言、Python、Java等进行数据分析处理时对使用者有较高的门槛要求不同,SPSS Modeler这款集成软件采用了图形化的操作界面,我们在对数据进行预处理、分析建模的过程仅仅需要简单的拖拽、点击、设置参数即可,对于从事大数据分析却又缺乏编程基础的学者来说再合适不过了。

2.1 SPSS Modeler主界面介绍

本教程中所演示的软件是SPSS Modler18.0,有需要的同学可以私信我邮箱([email protected])获取软件分享,也可以自己从 IBM官网.下载试用版。
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介
SPSS Modler18.0的主界面如上图所示,主要分为4个区域:1、数据流构建区;2、节点区;3、流、输出和模型管理区;4、数据挖掘项目管理区。

2.2SPSS Modeler基本操作

SPSS Modeler最基本的操作就是将【节点区】的节点拖入到【数据流构建区】,利用数据流进行连接,实现各种功能。比如我们尝试画一个图。
首先,将节点区的【源】节点找到自己要分析的文件类型(sav、excel等),将文件节点拖入数据流构建区域,双击打开,选中要分析的文件。此处使用的是SPSS Modeler自带的telo.sav数据。
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介
然后,将字段选项中的【类型】节点拖入构建区域,建立连接,对不同字段测量属性进行设置。
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介
其次,从节点区的【图形】拖一个【分布】上去,与上面设置好的类型节点连接。
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介
最后,选择好目标字段,点击运行,绘制出分布图如下:
SPSS Modeler18.0数据挖掘软件教程(一):背景及软件简介

3、小结

通过简单的绘图案例,可以发现SPSS Modelr的操作是十分简单的,后面的教程中我将进行数据的描述性统计、逻辑回归聚类分析、分类分析、关联分析均和上面所举例子的逻辑类似,通过简单的拖拽、连接,设置参数后,原本复杂的模型可以被简单地运用。