可汗学院公开课:统计学
1、均值:也即是平均值
2、中位数:对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
3、众数:一组数中出现次数最多的那个数
4、极数:一组数中,最大值减去最小值所得的差值
5、中程数:一组数中,最大值加上最小值的和除以2
6、条形图:
条形图是统计图资料分析中最常用的图形。主要特点有:
(1)能够使人们一眼看出各个数据的大小。
(2)易于比较数据之间的差别。
7、线形图:
常用于描述随时间变化的事物(注意刻度的描述)
8、饼状图:
用来描述事物各部分所占百分比(描述部分与整体的关系),没有负值没有零值
9、茎叶图
与直方图类似,但没有原始数据的缺失,方便记录与添加数据
10、箱线图
可以容易的观察到样本数据的分布情况
11、离群值:与其他的数不一样
11、集中趋势的描述:
在统计学中是指一组数据向某一中心靠拢的程度,它反映了一组数据中心的位置所在。
常用平均值描述
12、总体均值、样本均值
研究中实际观测或调查的一部分个体称为样本(sample),研究对象的全部称为总体(population)。
13、总体方差(var)
数据离均值(中心点)有多远的衡量值,即数据和均值之间的偏离程度。其中总体方差不等于样本方差。
14、样本方差(无偏样本方差)
因为样本方差往往低估总体方差,所以除以(n-1)
15、标准差:
即对方差开平方,目的为了使量纲相同
16、方差化简
17、随机变量(表示X,Y,Z):随机而定的量
离散型:抛硬币(X):正面1,反面0
连续型:下雨雨量(Y):多少立方
18、概率分布
伯努利分布(0-1分布)
伯努利分布亦称“零一分布”、“两点分布”。称随机变量X有伯努利分布, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。EX= p,DX=p(1-p)。
二项分布
二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。
下面是实验100次,p=0.9(成功的概率)
泊松分布
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。
正态分布:
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
大数定理:当样本量足够大时,样本均值将收敛于随机变量的期望值或者是总体均值
期望E(X):随机变量的期望值是总体的均值,但因是无穷,所以采取每个结果可能出现的概率作为权重后计算。