数据挖掘复习总结
数据挖掘复习总结
根据老师课件、课本、网络资料总结,供开卷考试复习使用
第三章-数据预处理
-
为什么要进行数据预处理:P23
因为脏数据:数据中存在误差(测量误差、收集误差;难以处理)、数据不一致(手工处理、耗时)、噪声(包含错误或孤立点或离群点;对噪音的处理具有两面性)、不完整(缺少数据值、缺乏某些重要属性、仅包含汇总数据)、重复数据、P26数据质量的其他问题(时效性、相关性、采样合理性) -
数据预处理的重要性:
高质量的决策必须依赖高质量的数据
数据仓库需要对高质量的数据进行一致地集成
低质量的数据算法效果不好 -
数据预处理的主要任务:
数据清理(填写空缺的值、平滑噪声数据、识别、删除孤立点、解决不一致性)
数据集成(继承多个数据库…)
数据变换(规范化、聚集)
数据归约
数据离散化(是数据归约的一部分,通过概念分层和数据的离散化来归约数据,对数字型数据非常重要)汇总统计(数据探索)P60
汇总统计是量化的,用单个数或数的小集合捕获可能很大的值集的特征。
-
度量数据的中心趋势
均值、中位数、众数、中列数 -
度量数据的离散数据
四分位数、四分位数极差、方差 -
度量的分类
分布式度量:将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样
代数度量:可以通过在一个或多个分布式度量上应用一个代数函数得到
整体度量:必须对整个数据集计算的度量 -
度量中心趋势
算数平均值
加权算术平均
截断均值:去掉高、低极值得到的均值
中位数(有序集)
众数 -
度量数据的离散度
最常用:极差、五数概括、中间四分位数极差和标准差
五数概括(min Q1 Median Q3 max)数据清理
-
数据清理任务
填写空缺的值
识别离群点和平滑噪声数据
纠正不一致的数据
解决数据集成造成的冗余
数据脱敏 -
引起空缺值的原因
设备异常
与其他已有数据不一致而被删除
因为误解而没有被输入 的数据
在输入时,有些数据因为得不到重视而没有被输入
对数据的改变没有进行日志记载 -
如何处理空缺值
忽略元组
填充 -
填充
用一个全局变量填充空缺值
使用属性的平均值填充空缺值
使用与给定元组属同一类的所有样本的平均值
使用最可能的值填充空缺值:使用像贝叶斯公式、knn或判定树这样基于推断的方法 -
噪声数据
噪声是一个测量变量中的随机错误或偏差 -
如何处理噪声数据
1.分箱
首先排序数据,并将他们分到等深 的箱中
按箱的平均值平滑、按箱中值平滑、按箱的边界平滑
2.回归
通过让数据使用回归函数来平滑数据
3.聚类
检测并去除孤立点
4.计算机与人工检查结合 -
数据集成
数据集成 | 模式集成 |
---|---|
将多个数据源中的数据集合到一个一致的存储中 | 整合不同数据源中的元数据 |
-
数据清理的过程
1.偏差检测
使用元数据
检查字段过载
检查唯一性规则、连续性规则、空值规则
使用偏差检查工具(数据清理工具、数据审计工具)
2.数据变换(纠正偏差)
数据迁移工具
ETL(提取/变换/装入)工具
3.偏差检测和数据变换(纠偏)的迭代执行 -
数据变换-规范化
1.最小-最大规范化
2.z-score规范化
standard_dev是数据均值、标准差
3.小数定标规范化 -
采样
减少数据量、提高算法效率
抽样的标准:有放回、无放回、分层抽样 -
维归约P31
维归约可以删除不相关的特征并降低噪声,避免维灾难
(维增加不仅仅是数据体量上的增加,往往伴随着稀疏性的增加)
1.属性抽取:将高维特征空间映射到低维空间,高维空间中的特征是原特征空间中没有的新的特征
2.属性子集选择(特征选择)
特征加权
找出最小属性集,使得数据类的概率分布尽可能接近使用的所有属性的原分布
减少出现在发现模式上的属性的数目,使得模式更易于理解 -
维归约-属性抽取-PCA
PCA-Principal Components Analysis
一种用于连续属性的线性代数技术,找出新的属性,这些属性是原属性的线性组合,是相互正交的,且捕获数据 的最大变差、最小协方差 -
属性子集选择
主要删除:冗余特征、不相关特征
方法:embedded、filter、wrapper
停止条件
1.达到设定需要选择的维数
2.特征子集已经收敛
3.根据某种评估标准已经获得最优的子集
按照最优特征集合的产生过程
1.穷举法
2.启发式方法
3.随机式方法
按照基于分类问题的特征降维技术分类
1.wrapper包装器(计算量大)
2.过滤器(忽略了特征空间子集在解决分类问题中的作用)
3.嵌入式特征选择:训练时执行特征选择,并采用具体的学习算法进行评估(不能充分挖掘词汇在知识发现和决策支持中的作用) -
相关性计算P46
皮尔森系数
分类与预测
分类:将对象映射为预定类别中的一个的过程
预测:识别对象在特定时刻的状态(带有时间参数的求解)过程:首先对数据拟合模型,然后对新数据进行预测
监督学习(分类):训练数据集合的类别属性是已知的,新的数据集合由基于训练集合得到的分类模型进行分类
非监督学习(聚类)训练集合的类别属性是未知的,给出一个由观察或测量等方法得到的数据集合
分类方法的评估:
1.预测精度
2.时间性能(建立模型的时间、使用模型的时间)
3.健壮性
4.空间性能
5.可理解性
6.规则的评估(模型规模的大小、分类规则的简洁性)
-
决策树构造算法CLS
自上而下的、递归的、分而治之的方法
初始状态下,所有训练实体集都在根节点
数据属性是离散型数据(连续性数据需要离散化)
停止分裂的条件:给定节点所包含的所有实例属于同一类型;已经没有更多的属性来支持进一步的分裂,采用多数投票方法来确定叶子的类别;此时已经没有未分类实例
CLS缺点:抗干扰能力弱;易受无关属性的影响,导致规则繁琐;受属性选择次序的影响;只能发现部分规则 -
决策树构造算法ID3
选择具有最高信息增益的属性X
有关信息熵I、期望信息熵E、信息增益Gain的计算方法见PPT -
决策树的优化策略
剪枝、优化节点、属性选择策略
优化的决策树具有:正确分类率高、误分类率低;抗噪性能好;结构合理;规则长度小 -
决策树模型的评估
模型的误差:具有低训练误差、低泛化误差
欠拟合:训练误差高,泛化误差高
过拟合:训练误差低,泛化误差高(大量侯选属性、少量训练记录)
避免过拟合的方法:预剪枝;后剪枝 -
RM的两个步骤
封包(Bagging/Bootstrap aggregation)
随机向量:
半随机森林 | 完全随机森林 |
---|---|
从所有属性中随机选择M个属性,再从这M个属性中确定最佳分割属性 | M个属性随机选择分割属性 |
随机森林优点:对过拟合鲁棒;对噪音鲁棒;能够处理缺失属性值;训练速度快
缺点:特征选择过程不明显;在较小的训练数据集上性能较差
构建随机森林的实例见PPT
-
朴素贝叶斯算法见PPT
-
朴素贝叶斯优缺点
优点:实现比较简单;在绝大多数情况下的结果很好
缺点:大量问题中存在依赖 -
贝叶斯网络
贝叶斯网络是子结构中的变量是相互独立的
第五章-关联规则
-
关联规则挖掘
在事务数据库、相关数据库和其他信息知识库的项目集或对象集中,找出频繁模式、关联、相关或因果结构。 -
频繁模式
在数据库中频繁出现的模式(项目集、序列集等)