【数据分析入门】第三、四周 描述统计与概率论笔记

第三、四周 Excel数据分析-描述统计与概率论笔记

一、数据分析的步骤

提出问题、理解数据、数据清洗(选择子集,删除重复值,一致化处理,异常值处理)、构建模型、阐述分析

二、描述统计学

简单描述为:数值数据与分类数据间互相转换

(1)分类数据描述统计:频数统计、频数百分比

(2)数值数据描述统计

a. 统计度量

平均数(AVERAGE)、中位数(MEDIAM)、众数(MODE)

分位数(四分位数法QUARTILE……)

方差(VAR.P描述数据的离散程度)

标准差(STDEV.P统一单位)

数据波动:平均数 ± 标准差

数据标准化:Z-Score(Z=Xi-平均数)/标准差

关于标准差:切比雪夫定理

至少有75%的数据,位于平均数2个标准差范围内

至少有89%的数据,位于平均数3个标准差范围内

至少有96%的数据,位于平均数5个标准差范围内

(可用于异常值检测)

b. 可视化

(1)箱线图
【数据分析入门】第三、四周 描述统计与概率论笔记

(2)直方图

三、概率的世界

概念:交、并、补集(略)

贝叶斯定理
【数据分析入门】第三、四周 描述统计与概率论笔记

来自教程视频:https://www.bilibili.com/video/av55547534/?p=40