样本与直方图、箱线图

1. 基础概念介绍

  • 总体与个体

    1.1.将试验的全部可能的观察值称为总体

    2.2.每一个可能的观察值称为个体

    3.3.总体中所包含的个体的个数称为总体的容量

    4.4.容量为有限的称为有限总体

    5.5.容量为无限的称为无限总体

    • 例如考察某大学一年级男生的身高这一试验,若一年级男生共20002000人,则每个男生的身高是一个可能的观察值(个体),所形成的的总体中共包含20002000个观察值,是一个有限总体。

    • 又如测量一湖泊任一地点的深度,所得总体是无限总体。

    • 有些有限总体,他的容量很大,我们可以认为它是一个无限总体,例如,考察全国正在使用的某种型号灯泡的寿命所形成的总体,由于可能观测值的个数很多,就可以认为是无限总体

2. 样本

  • 定义

    XX是具有分布函数FF的随机变量,若X1,X2,,XnX_1,X_2,\cdots ,X_n是具有同一分布函数FF的、相互独立的随机变量,则称X1,X2,,XnX_1,X_2,\cdots ,X_n为从分布函数FF(或总体FF、或总体XX)得到的容量为nn的简单随机样本,简称样本,它们的观察值x1,x2,,xnx_1,x_2,\cdots,x_n称为样本值,又称为XXnn独立的观察值

  • 由定义可知,若X1,X2,,XnX_1,X_2,\cdots ,X_nFF的一个样本,则X1,X2,,XnX_1,X_2,\cdots ,X_n相互独立,且它们的分布函数都是FF,所以(X1,X2,,XnX_1,X_2,\cdots ,X_n)的分布函数为F(x1,x2,,xn)=i=1nF(Xi)F^*(x_1,x_2,\cdots,x_n)=\prod\limits_{i=1}^{n}F(X_i)

    又若XX具有概率密度ff,则(X1,X2,,XnX_1,X_2,\cdots ,X_n)的概率密度为f(x1,x2,,xn)=i=1nf(xi)f^*(x_1,x_2,\cdots,x_n)=\prod\limits_{i=1}^{n}f(x_i)

3. 直方图

  • 例子

    下面列出了8484个伊特拉斯坎(Etruscan)(Etruscan)人男子的头颅的最大宽度(mm)(mm) 141148132138154142150146155158150140147148144150149145149158143141144144126140144142141140145135147146141136140146142137148154137139143140131143141149148135148152143144141143147146150132142142143153149146149138142149142137134144146147140142140137152145141\quad148\quad132\quad138\quad154\quad142\quad150\quad146\quad155\quad158\\ 150\quad140\quad147\quad148\quad144\quad150\quad149\quad145\quad149\quad158\\ 143\quad141\quad144\quad144\quad126\quad140\quad144\quad142\quad141\quad140\\ 145\quad135\quad147\quad146\quad141\quad136\quad140\quad146\quad142\quad137\\ 148\quad154\quad137\quad139\quad143\quad140\quad131\quad143\quad141\quad149\\ 148\quad135\quad148\quad152\quad143\quad144\quad141\quad143\quad147\quad146\\ 150\quad132\quad142\quad142\quad143\quad153\quad149\quad146\quad149\quad138\\ 142\quad149\quad142\quad137\quad134\quad144\quad146\quad147\quad140\quad142\\ 140\quad137\quad152\quad145

利用这些数据来绘制频率直方图

  • 解答

    • 数据排序

      源数据杂乱无章,将数据进行按照从小到大进行排序

    • 确定绘制的xx区间

      这些数据的最大值为158158,最小值为126126,即所有数据均落在[126,158][126,158]上,绘制区间要包含数据区间,可取绘制区间为[124.5,159.5][124.5,159.5] 。 一般所取区间比数据的最小值略小,比最大值略大即可

    • 确定等分区间个数

      根据需求自定义等分区间个数,这里设置为77
      通常当nn较大时,kk102010\sim20,当n<50n<50时,则kk565\sim6,若kk取值过大,则会出现某些小区间内的频数为零的情况(一般应设法避免)

    • 计算组距

      组距为每个小区间的长度,记作Δ=(159.5124.5)/7=5\Delta=(159.5-124.5)/7=5
      小区间的端点称为组限

    • 计算频数和频率

      数据落在小区间的次数,称为频数,记为fif_i,算出其频率fi/n(n=84,i=1,2,3,,7)f_i/n \quad (n=84,i=1,2,3,\cdots,7) ,,分点通常取比数据精度高一位,以免数据落在分点上此时,形成如下表格

      组限 频数fif_i 频率fi/nf_i/n 累计频率
      124.5129.5124.5\sim129.5 11 0.01190.0119 0.01190.0119
      129.5134.5129.5\sim134.5 44 0.04760.0476 0.05950.0595
      134.5139.5134.5\sim139.5 1010 0.11910.1191 0.17860.1786
      139.5144.5139.5\sim144.5 3333 0.39290.3929 0.57150.5715
      144.5149.5144.5\sim149.5 2424 0.28570.2857 0.85720.8572
      149.5154.5149.5\sim154.5 99 0.10710.1071 0.95240.9524
      154.5159.5154.5\sim159.5 33 0.03570.0357 11
    • 绘制图形

      利用python的工具包绘制图形,或者其他方式如前端工具highcharts和echarts,matlab等等

      样本与直方图、箱线图

      纵坐标为fin/Δ\frac{f_i}{n}/\Delta,直方图的的长度为Δ\Delta,很显然,这种小矩形的面积就等于数据落在该小区间的频率fi/nf_i/n.由于nn很大时,频率接近概率,因而一般来说,每个小区间上的小矩形面积接近于概率密度曲线之下该小区间内的曲边梯形面积,因此,一般来说,直方图的外廓曲线接近于总体XX概率密度曲线,从本例来看,它有一个峰,中间高,两头低,比较对称,看起来服从某一正态分布,从直方图还可以估计XX落在某一区间的概率,如51.251.2%的人最大头颅宽度落在区间(134.5,144.5)(134.5,144.5)之间等等。

    4. 箱线图

    • 4.1 样本分位数

    • 定义

      设有容量为nn的样本观察值x1,x2,,xnx_1,x_2,\cdots,x_n,样本pp分位数(0<p<1)(0<p<1)记为xpx_p,它具有以下的性质:(1)(1) 至少有npnp个观察值小于或者等于xpx_p(2)(2)至少有n(1p)n(1-p)个观察值大于或者等于xpx_p

    • 求法

    样本pp分位数可按以下法则求得。将x1,x2,,xnx_1,x_2,\cdots,x_n按自小至大的次序拍立成x(1)x(2)x(n).x_{(1)}\leq x_{(2)}\leq \cdots\leq x_{(n)}.

    xp={x([np]+1),np12[x(np)+x(np+1)],npx_p = \begin{cases} x_{([np]+1)},\quad 当np不是整数 \\\\ \frac{1}{2}[x_{(np)}+x_{(np+1)}],\quad 当np是整数 \end{cases}

    • 几种重要的分位数

      0.250.25分位数x0.25x_{0.25}称为第一四分位数,又记为Q1Q_10.750.75分位数x0.75x_{0.75}称为第三四分位数,又记为Q3.Q_3.x0.25,x0.5,x0.75x_{0.25},x_{0.5},x_{0.75} 在统计中十分有用

    • 异常值处理

      ​ 在数据集中,某一个观察值不寻常地大于或者小于该数据集中的其他数据,称为疑似异常值。疑似异常值的存在会对随后的计算结果产生不适当的影响,因此对于疑似异常值,需要给予处理。

      ​ 第一四分位数Q1Q_1于第三四分位数Q3Q_3之间的距离,Q3Q1=IQRQ_3-Q_1 \stackrel{记为}=IQR,称为四分位数间距,若数据小于Q11.5IQRQ_1-1.5IQR或大于Q3+1.5IQRQ_3+1.5IQR,则认为它是疑似异常值

    • 箱线图绘制步骤

      1. 画一条水平数轴,在轴上标上Min,Q1,M,Q3,Max.Min,Q_1,M,Q_3,Max. 在数轴上方画一个上、下侧平行于数轴的矩形箱子,箱子的左右两侧分别位于Q1,Q3Q_1,Q_3的上方,在MM点的上方画一条垂直线段,线段位于箱子内部。

      2. 计算IQR=Q3Q1IQR=Q_3-Q_1,若数据小于Q11.5IQRQ_1-1.5IQR或大于Q3+1.5IQRQ_3+1.5IQR,则认为它是疑似异常值。在Q3+1.5IQRQ_3+1.5IQRQ11.5IQRQ_1-1.5IQR处画两条与中位线一样的线段,这两条线段为疑似异常值截断点,称其为内限;在Q3+3IQRQ_3+3IQRQ13IQRQ1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers),疑似异常值用*表示

      3. 从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表示该批数据正常值的分布区间,从下面简单的箱线图可知
        ① 中心位置:中位数所在的位置就是数据集的中心
        ② 散步程度:全部数据都落在[Min,Max][Min,Max]之内,在区间[Min,Q1],[Q1,M],[M,Q3],[Q3,Max][Min,Q_1],[Q_1,M],[M,Q_3],[Q_3,Max]的数据各占14\frac{1}{4}区间较短时,表示落在该区间的点比较集中,反之则比较分散
        ③ 关于对称性:若中位数位于箱子的中间位置,则数据分布较为对称,又若MinMinMM的距离较大,则表示数据向左倾斜,反之则表示数据向右倾斜,且能看出来分布尾部的长短

样本与直方图、箱线图

  • 例题

    下面给出某医院2121个病人的住院时间(以天计),试画出修正箱线图(数据以排序)

    123344566779910121213151823551 \quad 2 \quad 3 \quad 3 \quad 4 \quad 4 \quad 5 \quad 6 \quad 6 \quad 7 \quad 7 \quad 9 \quad 9 \quad 10 \quad 12 \quad 12 \quad 13 \quad 15 \quad 18 \quad 23 \quad 55

    解:

    Min=1,Max=55,M=7,21×0.25=5.25,Q1=421×0.75=15.75,Q3=12IQR=Q3Q1=8Q3+IQR=24,Q31.5IQR=8Min=1,Max=55,M=7,因21\times0.25=5.25,得Q_1=4,\\ 又21\times0.75=15.75,得Q_3=12\\ 因此有IQR=Q_3-Q_1=8\\ \therefore Q_3+IQR=24,Q_3-1.5IQR=-8

    很显然,55>2455>24,因此5555为疑似异常值,且仅有一个异常值

样本与直方图、箱线图