【数据分析入门】第三、四周 描述统计与概率论笔记
第三、四周 Excel数据分析-描述统计与概率论笔记
一、数据分析的步骤
提出问题、理解数据、数据清洗(选择子集,删除重复值,一致化处理,异常值处理)、构建模型、阐述分析
二、描述统计学
简单描述为:数值数据与分类数据间互相转换
(1)分类数据描述统计:频数统计、频数百分比
(2)数值数据描述统计
a. 统计度量
平均数(AVERAGE)、中位数(MEDIAM)、众数(MODE)
分位数(四分位数法QUARTILE……)
方差(VAR.P描述数据的离散程度)
标准差(STDEV.P统一单位)
数据波动:平均数 ± 标准差
数据标准化:Z-Score(Z=Xi-平均数)/标准差
关于标准差:切比雪夫定理
至少有75%的数据,位于平均数2个标准差范围内
至少有89%的数据,位于平均数3个标准差范围内
至少有96%的数据,位于平均数5个标准差范围内
(可用于异常值检测)
b. 可视化
(1)箱线图
(2)直方图
三、概率的世界
概念:交、并、补集(略)
贝叶斯定理:
来自教程视频:https://www.bilibili.com/video/av55547534/?p=40