数据挖掘学习笔记:数据描述性统计

目录

集中趋势

均值:

中位数:

众数: 

离散趋势--变异程度的度量

极差(全距):

分位数:

四分位极差:

五数概括(five-number summary)

盒图(箱线图)

方差

标准差

变异系数

基本统计图


 

集中趋势

均值:

数据挖掘学习笔记:数据描述性统计

加权算术均值:数据挖掘学习笔记:数据描述性统计

截断均值:去掉高低截断值(不要去掉过多,会去掉一些有用的信息)

中位数:

奇数则为有序集的中间值, 否则为中间两个数的平均 

众数: 

出现频率最高的值(不唯一/每个值出现一次则没有) ;1/2/3个众数-〉单峰的, 双峰的, 三峰的 

中列数:

指样本中极大值与极小值的平均。有时作为对称分布的均值的粗略估计

离散趋势--变异程度的度量

极差(全距):

最大值与最小值之差,Range(x)=Max(x)-Min(x)

分位数:

将一个随机变量的概率分布范围分为几个等份的数值点

中位数:特殊的分位数

四分位数:25% 50% 75%

第P个百分位数:至少有P%的数据项小于或等于这个值,且至少有(100-P)%的数据项大于或等于这个值

计算方法:

  • 按递增排序
  • 计算位置的指数 i=(p/100)*n
  • 如果 i 不是整数,将其向上取整
  • 如果 i 是整数,则p分位数为第 i 项与第 i+1 项的数据的平均值

四分位极差:

又称四分位点内距,第1个和第3个四分位数之间的距离(半个全距):IQR=Q3-Q1

特点:该距离是散布的一种简单度量,能够克服极端值的影响

五数概括(five-number summary)

包含中位数(Q2)、四分位数Q1和Q3、最小和最大观测值:Min-->Q1-->Median(Q2)-->Q3-->Max

特点:最能反映数据重要特征的5个数

盒图(箱线图)

体现五数概括

特征:

  • 在盒图中,第一个四分位数和第三个四分位数确定了盒子的底部和顶部
  • 盒子中间的粗线就说中位数所在的位置
  • 由盒子向上向下伸出的垂直部分称为触须,表示数据的散布范围,通常最远点是1.5IQR(IQR=Q3-Q1)
  • 离群点(脏数据),为了不因这些少数的离群数据导致整体特征的偏移,将这些离群点单独汇出

数据挖掘学习笔记:数据描述性统计数据挖掘学习笔记:数据描述性统计

方差

样本:数据挖掘学习笔记:数据描述性统计

总体:数据挖掘学习笔记:数据描述性统计

标准差

方差数据挖掘学习笔记:数据描述性统计数据挖掘学习笔记:数据描述性统计的平方根数据挖掘学习笔记:数据描述性统计数据挖掘学习笔记:数据描述性统计

变异系数

标准差与均值的比值*100

基本统计图

条形图、直方图

散点图

盒图