[统计学笔记三] 整理和显示数据
[统计学笔记三] 整理和显示数据
数据的预处理
数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括:数据的审核、筛选、排序等。
数据审核:就是检查数据中是否存在错误。包括:完整性审核和正确性审核。
数据筛选:根据需要找出符合特定条件的某类数据。
数据排序:按一定的顺序将数据排列,以便于研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。
大家都比较熟悉的Excel可以帮助实现上述功能。在工作中,Excel可能算得上是最常用的数据预处理工具了。
行业数据挖掘标准过程(CRISP-DM)—目前数据挖掘模型开发的标准过程。这个过程指出了数据挖掘过程的第一阶段为业务理解,或称为研究理解,其中企业和研究人员首先阐明项目目标,然后将这些目标转化为数据挖掘的问题定义,最后为完成这些目标制定初步策略。数据挖掘工作的展开,对于数据需要经过预处理,包括数据清理和数据变换两种形式。
为什么需要对数据进行清理呢?
因为各种来源收集的数据,可能存在如下的问题:
- 过时或冗余数据
- 缺失值
- 离群值
- 其它形式不适合数据挖掘模型的数据
- 与策略或常识不一致的数据
- 等等
所以需要对将要进行数据分析和数据挖掘的数据进行预处理。
数据可视化表示的常用图
图例说明
可以使用Python,或者直接使用 工具Anaconda方便的制作各种统计图。
我喜欢的工具是:Anaconda。它已经自带了以下库:Numpy,Scipy,Maplotlib,Pandas和Scikit-Learn。
Anaconda 的下载地址:https://www.anaconda.com/distribution/
下面的图例就是通过Anaconda制作的,当然开发语言是使用Python。
Python数据挖掘相关扩展库
扩展库 |
简介 |
---|---|
Numpy | 提供数组支持,以及相应的高效的处理函数 |
Scipy | 提供矩阵支持,以及矩阵相关的数值计算模块 |
Matplotlib | 强大的数据可视化工具、作图库 |
Pandas | 强大、灵活的数据分析和探索工具 |
StatsModels | 统计建模和计量经济学,包括描述统计、统计模型估计和推断 |
Scikit-Learn | 支持回归、分类、聚类等的强大的机器学习库 |
Keras | 深度学习库,用于建立神经网络以及深度学习模型 |
Gensim | 用来做文本主题模型的库,文本挖掘可能用到 |
数据特征分析
对数据进行质量分析以后,接下来可以通过绘制图表、计算某些特征量等手段进行数据的特征分析。
合理使用图表
一个精心设计的图形是展示数据的有效工具。
一张好的图表应具有以下基本特征:
(1)显示数据
(2)让看图的人把注意力集中在图形的内容上,而不是制作图形的程序上。
(3)避免歪曲
(4)强调数据之间的比较
(5)服务于一个明确的目标
(6)有对图形的统计描述和文字说明
附:CRISP-DM 资源
CRISP-DM方法论(跨行业数据挖掘标准流程、Cross-Industry Standard Process for Data Mining)
链接:https://wiki.mbalib.com/wiki/CRISP-DM