数据挖掘学习笔记:数据描述性统计
目录
集中趋势
均值:
加权算术均值:
截断均值:去掉高低截断值(不要去掉过多,会去掉一些有用的信息)
中位数:
奇数则为有序集的中间值, 否则为中间两个数的平均
众数:
出现频率最高的值(不唯一/每个值出现一次则没有) ;1/2/3个众数-〉单峰的, 双峰的, 三峰的
中列数:
指样本中极大值与极小值的平均。有时作为对称分布的均值的粗略估计
离散趋势--变异程度的度量
极差(全距):
最大值与最小值之差,Range(x)=Max(x)-Min(x)
分位数:
将一个随机变量的概率分布范围分为几个等份的数值点
中位数:特殊的分位数
四分位数:25% 50% 75%
第P个百分位数:至少有P%的数据项小于或等于这个值,且至少有(100-P)%的数据项大于或等于这个值
计算方法:
- 按递增排序
- 计算位置的指数 i=(p/100)*n
- 如果 i 不是整数,将其向上取整
- 如果 i 是整数,则p分位数为第 i 项与第 i+1 项的数据的平均值
四分位极差:
又称四分位点内距,第1个和第3个四分位数之间的距离(半个全距):IQR=Q3-Q1
特点:该距离是散布的一种简单度量,能够克服极端值的影响
五数概括(five-number summary)
包含中位数(Q2)、四分位数Q1和Q3、最小和最大观测值:Min-->Q1-->Median(Q2)-->Q3-->Max
特点:最能反映数据重要特征的5个数
盒图(箱线图)
体现五数概括
特征:
- 在盒图中,第一个四分位数和第三个四分位数确定了盒子的底部和顶部
- 盒子中间的粗线就说中位数所在的位置
- 由盒子向上向下伸出的垂直部分称为触须,表示数据的散布范围,通常最远点是1.5IQR(IQR=Q3-Q1)
- 离群点(脏数据),为了不因这些少数的离群数据导致整体特征的偏移,将这些离群点单独汇出
方差
样本:
总体:
标准差
方差或
的平方根
或
变异系数
标准差与均值的比值*100
基本统计图
条形图、直方图
散点图
盒图