数据挖掘复习总结

根据老师课件、课本、网络资料总结，供开卷考试复习使用

第三章-数据预处理

为什么要进行数据预处理：P23
因为脏数据：数据中存在误差（测量误差、收集误差；难以处理）、数据不一致（手工处理、耗时）、噪声（包含错误或孤立点或离群点；对噪音的处理具有两面性）、不完整（缺少数据值、缺乏某些重要属性、仅包含汇总数据）、重复数据、P26数据质量的其他问题（时效性、相关性、采样合理性）
数据预处理的重要性：
高质量的决策必须依赖高质量的数据
数据仓库需要对高质量的数据进行一致地集成
低质量的数据算法效果不好
数据预处理的主要任务：
数据清理（填写空缺的值、平滑噪声数据、识别、删除孤立点、解决不一致性）
数据集成（继承多个数据库…）
数据变换（规范化、聚集）
数据归约
数据离散化（是数据归约的一部分，通过概念分层和数据的离散化来归约数据，对数字型数据非常重要）

汇总统计（数据探索）P60

汇总统计是量化的，用单个数或数的小集合捕获可能很大的值集的特征。
度量数据的中心趋势
均值、中位数、众数、中列数
度量数据的离散数据
四分位数、四分位数极差、方差
度量的分类
分布式度量：将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样
代数度量：可以通过在一个或多个分布式度量上应用一个代数函数得到
整体度量：必须对整个数据集计算的度量
度量中心趋势
算数平均值
加权算术平均
截断均值：去掉高、低极值得到的均值
中位数（有序集）

众数
度量数据的离散度
最常用：极差、五数概括、中间四分位数极差和标准差
五数概括（min Q1 Median Q3 max）

数据清理
数据清理任务
填写空缺的值
识别离群点和平滑噪声数据
纠正不一致的数据
解决数据集成造成的冗余
数据脱敏
引起空缺值的原因
设备异常
与其他已有数据不一致而被删除
因为误解而没有被输入的数据
在输入时，有些数据因为得不到重视而没有被输入
对数据的改变没有进行日志记载
如何处理空缺值
忽略元组
填充
填充
用一个全局变量填充空缺值
使用属性的平均值填充空缺值
使用与给定元组属同一类的所有样本的平均值
使用最可能的值填充空缺值：使用像贝叶斯公式、knn或判定树这样基于推断的方法
噪声数据
噪声是一个测量变量中的随机错误或偏差
如何处理噪声数据
1.分箱
首先排序数据，并将他们分到等深的箱中
按箱的平均值平滑、按箱中值平滑、按箱的边界平滑
2.回归
通过让数据使用回归函数来平滑数据
3.聚类
检测并去除孤立点
4.计算机与人工检查结合
数据集成

数据集成	模式集成
将多个数据源中的数据集合到一个一致的存储中	整合不同数据源中的元数据

数据清理的过程
1.偏差检测
使用元数据
检查字段过载
检查唯一性规则、连续性规则、空值规则
使用偏差检查工具（数据清理工具、数据审计工具）
2.数据变换（纠正偏差）
数据迁移工具
ETL（提取/变换/装入）工具
3.偏差检测和数据变换（纠偏）的迭代执行
数据变换-规范化
1.最小-最大规范化
2.z-score规范化

standard_dev是数据均值、标准差
3.小数定标规范化
采样
减少数据量、提高算法效率
抽样的标准：有放回、无放回、分层抽样
维归约P31
维归约可以删除不相关的特征并降低噪声，避免维灾难
（维增加不仅仅是数据体量上的增加，往往伴随着稀疏性的增加）
1.属性抽取：将高维特征空间映射到低维空间，高维空间中的特征是原特征空间中没有的新的特征
2.属性子集选择（特征选择）
特征加权
找出最小属性集，使得数据类的概率分布尽可能接近使用的所有属性的原分布
减少出现在发现模式上的属性的数目，使得模式更易于理解
维归约-属性抽取-PCA
PCA-Principal Components Analysis
一种用于连续属性的线性代数技术，找出新的属性，这些属性是原属性的线性组合，是相互正交的，且捕获数据的最大变差、最小协方差
属性子集选择
主要删除：冗余特征、不相关特征
方法：embedded、filter、wrapper

停止条件
1.达到设定需要选择的维数
2.特征子集已经收敛
3.根据某种评估标准已经获得最优的子集
按照最优特征集合的产生过程
1.穷举法
2.启发式方法
3.随机式方法
按照基于分类问题的特征降维技术分类
1.wrapper包装器（计算量大）
2.过滤器（忽略了特征空间子集在解决分类问题中的作用）
3.嵌入式特征选择：训练时执行特征选择，并采用具体的学习算法进行评估（不能充分挖掘词汇在知识发现和决策支持中的作用）
相关性计算P46
皮尔森系数

分类与预测

分类：将对象映射为预定类别中的一个的过程
预测：识别对象在特定时刻的状态（带有时间参数的求解）过程：首先对数据拟合模型，然后对新数据进行预测

监督学习（分类）：训练数据集合的类别属性是已知的，新的数据集合由基于训练集合得到的分类模型进行分类
非监督学习（聚类）训练集合的类别属性是未知的，给出一个由观察或测量等方法得到的数据集合

分类方法的评估：
1.预测精度
2.时间性能（建立模型的时间、使用模型的时间）
3.健壮性
4.空间性能
5.可理解性
6.规则的评估（模型规模的大小、分类规则的简洁性）

决策树构造算法CLS
自上而下的、递归的、分而治之的方法
初始状态下，所有训练实体集都在根节点
数据属性是离散型数据（连续性数据需要离散化）
停止分裂的条件：给定节点所包含的所有实例属于同一类型；已经没有更多的属性来支持进一步的分裂，采用多数投票方法来确定叶子的类别；此时已经没有未分类实例
CLS缺点：抗干扰能力弱；易受无关属性的影响，导致规则繁琐；受属性选择次序的影响；只能发现部分规则
决策树构造算法ID3
选择具有最高信息增益的属性X
有关信息熵I、期望信息熵E、信息增益Gain的计算方法见PPT
决策树的优化策略
剪枝、优化节点、属性选择策略
优化的决策树具有：正确分类率高、误分类率低；抗噪性能好；结构合理；规则长度小
决策树模型的评估
模型的误差：具有低训练误差、低泛化误差
欠拟合：训练误差高，泛化误差高
过拟合：训练误差低，泛化误差高（大量侯选属性、少量训练记录）
避免过拟合的方法：预剪枝；后剪枝
RM的两个步骤
封包（Bagging/Bootstrap aggregation）
随机向量：

半随机森林	完全随机森林
从所有属性中随机选择M个属性，再从这M个属性中确定最佳分割属性	M个属性随机选择分割属性

随机森林优点：对过拟合鲁棒；对噪音鲁棒；能够处理缺失属性值；训练速度快
缺点：特征选择过程不明显；在较小的训练数据集上性能较差
构建随机森林的实例见PPT

朴素贝叶斯算法见PPT
朴素贝叶斯优缺点
优点：实现比较简单；在绝大多数情况下的结果很好
缺点：大量问题中存在依赖
贝叶斯网络
贝叶斯网络是子结构中的变量是相互独立的

第五章-关联规则

关联规则挖掘
在事务数据库、相关数据库和其他信息知识库的项目集或对象集中，找出频繁模式、关联、相关或因果结构。
频繁模式
在数据库中频繁出现的模式（项目集、序列集等）

数据挖掘复习总结

数据挖掘复习总结

第三章-数据预处理

汇总统计（数据探索）P60

数据清理

分类与预测

第五章-关联规则

相关推荐