数据挖掘与知识发现
数据挖掘与知识发现
数据挖掘与知识发现有这密切的联系,从狭义的角度讲,数据挖掘是知识发现的一个环节;从广义的角度讲,数据挖掘与知识发现的含义是相同的。
知识发现(Knowledge Discovery in Database, KDD)是一个完整的数据分析过程,主要包括以下几个步骤:
-
确定知识发现的目标:确定知识发现的目的,要发现那些知识。
-
数据采集: 从网络爬虫、数据库导出、CSV文件等数据源获取目标数据采集到指定的系统中。“数据质量决定数据挖掘的上限,而算法仅仅是逼近这个上限。”
-
数据探索:采集到的数据往往不可以直接使用,需用采用可视化技术,将数据的特征展现出来,探索数据特征的基本统计描述、数据特征间的相似性/相异性。
-
数据预处理:主要包括数据清理、数据集成、数据规约、数据变换和离散化等几个部分
(1) 数据清理:主要包括缺失值与异常值的清理
(2) 数据集成:将多种数据源集到一起,放在一个数据仓库的过程。在数据集成的过程中会出现实体识别(Entity Resolution)、冗余属性识别、数据值冲突等问题。
(3) 数据规约:在保证原始数据信息不丢失的前提下,减少分析使用的数据量。数据规约中最常使用的方式是维归约。维归约的含义是将原先高维的数据合理地压缩成低维数据,而减少数据量,常用的方法为特征的提取,如线性判别分析LDA和主成分分析PCA。
(4) 数据的变换:将原始的特征数据进行归一化和标准化的操作。
(5) 数据的离散化可通过聚类、直方图、分箱等方法完成。
-
数据挖掘(模型选择):对预处理后的数据进行挖掘的过程。传统的数据挖掘将算法大体分为有监督的学习与无监督的学习两种。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k12KSunb-1601124019954)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20200926145859057.png)]
-
模型评估:对数据挖掘结果的评价,也是评价模型效果好与坏的标准,常见的评估指标有精度、召回率等。