机器学习之数据理解
03 | 数据理解
-数据理解
收集原始数据
- 获取或者下载数据
- 从不同的数据源或者有关系的数据合并为一个数据集
描述数据
- 数据的描述性统计
- 数据的特征机构
挖掘数据(原始数据分/挖掘)
- 数据挖掘对原始数据提供一个直观的感受
- 对数据可视化以发现有用的模式
- 这一步可能有些数据问题不被发现
- 可能的描述猜想会知道新数据集合和试验
真实的数据质量
- 错误,异常和缺失值
-数据挖掘
- 数据挖掘-原始数据分析(Initial Data Analysis)
- 原始数据分析几乎是每一个分析的重要组成部分,主要包括一下部分:
- 数据结构
- 数据质量
- 描述性统计
- 图
- 通过分析数据可以做一些修正:
- 调整极值
- 估计缺失值
- 转换变量
- 形成新的变量
- 箱线图
- 数据挖掘-探索数据分析(Exploration Data Analysis)
- 探索性数据分析是一种分析数据的方法,目的是为了形成值得检验的假设。
- 我们经常使用数据可视化技术
- 探索性数据分析是由ohn Tukey提出,为了鼓励统计学家去探索数据和可能描述性假设,这些假设可以知道新的数据集合和试验。
- 在一些相关的书籍里面,探索性数据分析似乎原始数据分析的通行证。
- 在你学会测量你似乎已经做好了它之前,了解你能做什么是重要的。
- 为了学习数据分析,每个人试图尝试一些没有效果的努力是正确的-尽管我们会遇到的问题多于专业的分析。
- 我们通常从一个熟练的分析比一个地方学到的东西更少,因为不去尝试,我们错失了学习更多的机会。
-数据描述
检查获取数据的“粗略”或“表面”属性并报告结果。统计汇总表显示每个变量的分布,并提供描述性统计。
例如下图:描述性统计
数据描述报告:描述收集到的数据包括他的格式,数量(比如:记录的条数和数据中的字段数),以及被发现的的表面特征数和字段数量。评估获取到的数据是否满足你的需求。
例如:数据挖掘和可视化:
让我们更加接近的看看数据: