描述性统计

描述性统计

数据分布的特征主要从三个方面进行测度和描述:一是分布的集中趋势,反应了各数据向中心值靠拢或聚集的程度。二是分布的离散程度:反应个数据远离中心值的趋势。三是分布的形状:反应数据分布的偏态和峰态。
1.1 集中趋势的度量
集中趋势(central tendency)是指某一组数据向某一中心点靠拢的程度,它反映了一组数据的中心点所在。低层次的数据的集中趋势测度值适用于高层次的数据,反之不可。

1.1.1 分类的数据:众数
众数(mode)是一组数据中最多出现的变量值。主要用于测度分类数据的集中趋势。也可以作为顺序数据以及数值型数据集中趋势的测度值。一般情况下:只有数据量大的情况下,众数才有意义。并且不受极端值的影响
描述性统计

1.1.2顺序数据:中位数和分位数
一组数据中,可以找出某个位置上的数据。

  • 中位数(median)是一组数据排序后处于中间位置上的变量值。适用于测度顺序数据的集中趋势,和数值型数据的集中趋势,不适用于分类数据。
    描述性统计
  • 四分位数 (quartile)也成四分位点,它是一组数据排序后处于25%上的位置和75%位置上的值。位置确定有如下几种:
    描述性统计
    Excel中可以使用QUARTILE函数计算一组数据的四分位数。
    算法:QUARTILE.INC(array,quart)

1.1.3 数值型数据:平均数
平均数也称均值(mean),它是一组数据相加后除以一组数据的个数的结果。
平均数是集中趋势的测度值,适用于数值型数据,而不适用于顺序数据和分类数据。

  1. 简单平均数和加权平均数
    根据未经分组数据计算的平均数称之为简单平均数(simple mean)

描述性统计

  • 根据分组数据计算的平均数称之为加权平均数(weighted mean)
    描述性统计
    2.特殊的平均数:几何平均数
  • 几何平均数(geometric mean) 是n个变量值乘积的n次方根,用G表示。
    当数据中出现零值或负值时,不宜计算集合平均数。主要用于计算平均比率。描述性统计
    Excel中GEOMEAN函数可以计算数值型的几何平均数
    语法:GEOMEAN(number1……)
    当所平均的各比率数值差别不大时,算数平均和几何平均结果差别不大,反之差别明显。

1.1.4 众数,中位数,平均数的差别

  • 关系:
    分布角度:众数是数据分布的最高峰值,中位数处于数据中中间位置上的值,平均数是算数平均。
    对于单峰分布而言:如果数据对称:众数=平均数=中位数。
    如果左偏分布:会出现极小值,关系为:平均数<中位数<众数。
    如果右偏分布 :众数<中位数<平均数。

  • 应用场合:
    众数是一组数据分布的峰值,不受极值影响。缺点是不具有唯一性。适合作为分类数据的集中趋势测度值。

    中位数是一组数据中间位置上的值,不受极端值影响,适合顺序数据的测度值。

    平均数:针对数值型数据,是应用最广泛的集中趋势测度值。缺点容易受极端值影响。
    描述性统计

1.2 离散程度的度量

数据的离散程度是数据分布的另一个重要特征。反应个变量值原理中心值的程度。越大,集中趋势测度值代表性就越差;越小,代表性就越好。根据不同数据类型还有的异众比率,四分位差,方差和标准差。还有极差,平均差,和离散系数。

1.2.1 分类依据 :异众比率(variation ratio)
是指非众数组的频数占总频数的比例。用Vr表示
描述性统计
异众比率主要衡量众数对一组数据的代表程度。越大说明,非众数组的频数越大,众数的代表性越差。反之,越好。属于顺序和数值型数据也可以计算。

1.2.2顺序数据:四分位差(quartile deviation)

也称四分间距(inner -quartile range),是上四分位数和下四分位数的差值。Qd表示
Qd = Qu-Ql
其反映了50%的离散程度,数值越小,说明中间数据;反之,分散。一定程度上说明了中位数的影响,不适合分类数据。

1.2.3 数值型数据:方差和标准差

  • 极差:一组数据中最大值和最小值的差。也称全距。用R表示。
    R = max(Xi)-min(Xi)
    容易受极端值影响,不能反映中间数据。
  • 平均差(mean deviation)
    也称平均绝对差(mean absolute deviation)。是个变量值与平均数差的绝对值。描述性统计
    Excel的AVEDEV(number……)可以计算平均差。

能全面反映数据的离散程度。越大说明离散程度越大;反之,越小。

  • 方差和标准差
    方差(variance)是各变量值与平均数差平方的平均数。
    标准差(standard deviation)是方差的平方根。

能更好的反映数据的离散程度。
描述性统计

Excel的统计函数STDEV(number……)
总体数据:STDEVP(number……)

自由度(degree of freedom):样本方差是用样本数据减1后去除离差的平方和。其中n-1称为自由度。
描述性统计

  • 相对位置的度量
    1.标准分数(standard score):变量值与其平均数的差除以标准差。也称标准分数。设标准分数为z
    描述性统计
    标准分数给了一组数据中的相对位置。

1.2.4 相对离散程度:离散系数

离散系数:也称变异系数,它是一组数的标准差和平均数之比。
描述性统计

1.3 偏态和峰态的度量

1.3.1 偏态及其测度

偏态(skewness):是对数据分布对称性的测度。测度偏态的统计量是偏态系数(coefficient of skewness )。记作 SK。
描述性统计