箱线图详解
目录
-
定义
- 是用来反映数据分布特征的图,因为长得像箱子,故而称作箱线图
-
使用场景
- 需要了解数据的分布特征时
- 需要查看异常值时
-
图像
-
-
图标解释
- 上边缘(非异常最大值)
- = 第三分位数+1.5*(第三分位数-第一分位数)
- 下边缘(非异常最小值)
- =第一分位数 - 1.5*(第三分位数-第一分位数)
- 下四分位数(第一四分位数)Q1
- 是什么:一组数按从小到大的顺序排列后,位于第25%的数字
- 怎么算:= (n +1 )/4 n是一组数据的项目
- 分析特征:
- 有25%的数据小于此值
- 中位数(第二四分位数)Q2
- 是什么 : 一组数按从小到大的顺序排列,取最中间的数,即位于第50%的数据
- 怎么算:= (n +1 )/2
- 分析特征:
- 有50%的数据小于此值
- 上四分位数(第三四分位数)Q3
- 是什么 : 一组数按从小到大的顺序排列后,位于第75%的数字
- 怎么算:= 3* (n +1 )/4
- 分析特征
- 有75%的数据小于此值
- 离群点(异常值)
- 一般是偏离3个标准差外的点
- 四分位差IQR
- 是什么 : =第三分位数-第一分位数
- 分析特征
- 数据集中50%(25%--50%)的数据
- 四分位数
- 将一组数据按照从小到大的顺序依次排列,并分成四等份,处于3个分割点位置的数字就是四分位数
- 每一段距离包含包含25%的样本数量
- 下边缘------下四分位数
- 下四分位数-----中位数
- 中位数-------上四分位数
- 上四分位数------上边缘
- 上边缘(非异常最大值)