【stata】统计图——学习教程全记录(02)
开一文记录和总结stata的学习,不断更新中~
转载请联系授权,并注明来源~
histogram 直方图
【histogram varname [if] [in] [weight] [,[continuous_opts| discrete_opts] options】
varname:只能有一个变量呀~
histogram=hist
常用指令:hist varname/ hist varname,freq/ hist varname,bu(varname2)
y轴统计量:
1.density (stata默认的)
2.fraction=frac
3.frequency=freq
4.percent
(实例:此处hist varname)
A.直方图可以设定宽度\开始值\直方组数
如图:1:连续变量 2:离散变量
B.添加density plots(可以拟合数据的分布)
(实例:)
Graph box/hbox 箱线图
【graph box yvars [if] [in] [weight] [,options]】
【graph hbox yvars [if] [in] [weight] [,options]】
说明
1.直观明了地识别数据批中的异常值
箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不会影响箱形图的数据形状,箱线图识别异常值的结果比较客观。
2.利用箱线图判断数据批的偏态和尾重
对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数);
而偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。
3.利用箱线图比较几批数据的形状
图解
异常值:离群值,超过上下限的值,被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。
IQR:上四分位-下四分位
(实例如下图,box/hbox)
Vioplot 小提琴图
显示数据分布及其概率密度
注:stata中未自带需要安装
安装:【ssc install vioplot】
【vioplot varlist [if] [in] [weight] [,option] 】