【机器学习数学基础之概率论与统计03】抽样分布

两个概念

    独立同分布样本:当X1,X2,...,Xn相互独立具有相同的分布函数F的时候,称X1,X2,...,Xn为独立同分布样本,记为X1,X2,...,Xn ~ F.

    抽样分布:X1,X2,...,Xn为独立同分布样本(IID),其均值和方差为μ和σ²。那么对于这些样本有样本均值 【机器学习数学基础之概率论与统计03】抽样分布,即求平均值。因为每个Xi都是随机变量,所以样本均值也是随机变量,对样本均值进行分布描述,那么该分布称为抽样分布。(这句话的意思是说,X1,X2,...,Xn是随机的,因此他们的平均值会改变,抽样分布就是对它们的平均值的描述)。

样本均值和样本方差

    样本均值:【机器学习数学基础之概率论与统计03】抽样分布

    样本方差:【机器学习数学基础之概率论与统计03】抽样分布

   由样本均值和样本方差估计真正的期望和方差

    假设X1,X2,...,Xn为IID,真正的均值为E(Xi)=μ,真正的方差V(Xi)=σ²。

    那么可以证明:样本均值的期望=μ,样本均值的方差为σ²/N,样本方差的期望为σ²。

        *看起来有些绕,意思就是说,这些独立同分布样本的均值的均值等于μ,也就是这些样本的均值能够代表总的期望;同 理,样本方差的期望为σ²是             说,样本的方差能够代表总的方差

    即:XN和SN²分别是μ和σ²的很好估计(无偏估计)--样本数N越大,样本均值的方差为σ²/N越小,样本均值的期望就越接近μ.

    下面给出这三个式子的证明:

    【机器学习数学基础之概率论与统计03】抽样分布

两个定理

    这里为了提高效率,我省去了依概率收敛和依分布收敛,将来学校课程学到再补。

    弱大数定理

        对于IDD,样本均值依概率收敛于期望,样本方差也收敛于方差。

    中心极限定理

        对于独立同分布样本,真正的均值为E(Xi)=μ,真正的方差V(Xi)=σ²,那么样本均值服从期望为μ,方差为σ²/N的正态分布。

        *这样就可以理解为什么样本均值的方差为σ²/N越小,样本均值的期望就越接近μ了。