样本与直方图、箱线图
1. 基础概念介绍
-
总体与个体
将试验的全部可能的观察值称为总体
每一个可能的观察值称为个体
总体中所包含的个体的个数称为总体的容量
容量为有限的称为有限总体
容量为无限的称为无限总体
-
例如考察某大学一年级男生的身高这一试验,若一年级男生共人,则每个男生的身高是一个可能的观察值(个体),所形成的的总体中共包含个观察值,是一个有限总体。
-
又如测量一湖泊任一地点的深度,所得总体是无限总体。
-
有些有限总体,他的容量很大,我们可以认为它是一个无限总体,例如,考察全国正在使用的某种型号灯泡的寿命所形成的总体,由于可能观测值的个数很多,就可以认为是无限总体
-
2. 样本
-
定义
设是具有分布函数的随机变量,若是具有同一分布函数的、相互独立的随机变量,则称为从分布函数(或总体、或总体)得到的容量为的简单随机样本,简称样本,它们的观察值称为样本值,又称为的个独立的观察值
-
由定义可知,若为的一个样本,则相互独立,且它们的分布函数都是,所以()的分布函数为
又若具有概率密度,则()的概率密度为
3. 直方图
-
例子
下面列出了个伊特拉斯坎人男子的头颅的最大宽度
利用这些数据来绘制频率直方图
-
解答
-
数据排序
源数据杂乱无章,将数据进行按照从小到大进行排序
-
确定绘制的区间
这些数据的最大值为,最小值为,即所有数据均落在上,绘制区间要包含数据区间,可取绘制区间为 。 一般所取区间比数据的最小值略小,比最大值略大即可
-
确定等分区间个数
根据需求自定义等分区间个数,这里设置为。
通常当较大时,取,当时,则取,若取值过大,则会出现某些小区间内的频数为零的情况(一般应设法避免) -
计算组距
组距为每个小区间的长度,记作
小区间的端点称为组限 -
计算频数和频率
数据落在小区间的次数,称为频数,记为,算出其频率 ,,分点通常取比数据精度高一位,以免数据落在分点上此时,形成如下表格
组限 频数 频率 累计频率 -
绘制图形
利用python的工具包绘制图形,或者其他方式如前端工具highcharts和echarts,matlab等等
纵坐标为,直方图的的长度为,很显然,这种小矩形的面积就等于数据落在该小区间的频率.由于很大时,频率接近概率,因而一般来说,每个小区间上的小矩形面积接近于概率密度曲线之下该小区间内的曲边梯形面积,因此,一般来说,直方图的外廓曲线接近于总体概率密度曲线,从本例来看,它有一个峰,中间高,两头低,比较对称,看起来服从某一正态分布,从直方图还可以估计落在某一区间的概率,如的人最大头颅宽度落在区间之间等等。
4. 箱线图
-
4.1 样本分位数
-
定义
设有容量为的样本观察值,样本分位数记为,它具有以下的性质: 至少有个观察值小于或者等于;至少有个观察值大于或者等于
-
求法
样本分位数可按以下法则求得。将按自小至大的次序拍立成
-
几种重要的分位数
分位数称为第一四分位数,又记为,分位数称为第三四分位数,又记为, 在统计中十分有用
-
异常值处理
在数据集中,某一个观察值不寻常地大于或者小于该数据集中的其他数据,称为疑似异常值。疑似异常值的存在会对随后的计算结果产生不适当的影响,因此对于疑似异常值,需要给予处理。
第一四分位数于第三四分位数之间的距离,,称为四分位数间距,若数据小于或大于,则认为它是疑似异常值
-
箱线图绘制步骤
-
画一条水平数轴,在轴上标上 在数轴上方画一个上、下侧平行于数轴的矩形箱子,箱子的左右两侧分别位于的上方,在点的上方画一条垂直线段,线段位于箱子内部。
-
计算,若数据小于或大于,则认为它是疑似异常值。在和处画两条与中位线一样的线段,这两条线段为疑似异常值截断点,称其为内限;在和处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers),疑似异常值用*表示
-
从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表示该批数据正常值的分布区间,从下面简单的箱线图可知
① 中心位置:中位数所在的位置就是数据集的中心
② 散步程度:全部数据都落在之内,在区间的数据各占区间较短时,表示落在该区间的点比较集中,反之则比较分散
③ 关于对称性:若中位数位于箱子的中间位置,则数据分布较为对称,又若离的距离较大,则表示数据向左倾斜,反之则表示数据向右倾斜,且能看出来分布尾部的长短
-
-
-
例题
下面给出某医院个病人的住院时间(以天计),试画出修正箱线图(数据以排序)
解:
很显然,,因此为疑似异常值,且仅有一个异常值