机器学习|数学期望(随机变量、随机变量函数)+k阶原点矩、中心矩|15mins入门|概统学习笔记(八)

数学期望

1.随机变量的数学期望

  • 背景:如果知道了随机变量X的概率分布,那么X的全部概率特征也就都知道了,但是在实际问题中,概率分布一般是比较难确定的,因此人们并不需要知道随机变量的一切概率性质,只要知道它的某些数字特征(期望和方差)就够了。

  • 离散型随机变量的数学期望

    设X是离散型随机变量,它的概率函数是P(X=Xk)=pk, k=1,2,...P(X=X_k)=p_k,\space k=1,2,...

    如果k=1xkpk\sum_{k=1}^\infty|x_k|p_k有限,定义X的数学期望为:
    E(X)=k=1xkpk E(X)=\sum^\infty_{k=1}x_kp_k
    也就是说,离散型随机变量的数学期望是一个绝对收敛的级数的和

  • 连续型随机变量的数学期望

    设X是连续型随机变量,其密度函数为f(x)f(x),在数轴上取很密的分点x0<x1<x2<...,x_0<x_1<x_2<...,则X落在小区间[xi,xi+1[x_i,x_{i+1}的概率是
    xixi+1f(x)dxf(xi)(xi+1xi)=f(xi)Δxi \int_{x_i}^{x_{i+1}}f(x)dx \approx f(x_i)(x_{i+1}-x_i)=f(x_i)\Delta x_i

机器学习|数学期望(随机变量、随机变量函数)+k阶原点矩、中心矩|15mins入门|概统学习笔记(八)

​ 如果xf(x)dx\int_{-\infty}^\infty|x|f(x)dx有限,定义X的数学期望为:
E(X)=xf(x)dx E(X)=\int_{-\infty}^\infty xf(x)dx
​ 也就是说,连续型随机变量的数学期望是一个绝对收敛的积分

  • 由随机变量数学期望的定义,不难计算得:

    • 若X服从参数为λ\lambda的泊松分布,则
      E(X)=λ E(X)=\lambda

    • XX~U(a,b)U(a,b),即X服从(a,b)上的均匀分布,则
      E(X)=a+b2 E(X) = \frac{a+b}{2}

    • 若X服从N(μ,σ2)N(\mu,\sigma^2),则
      E(X)=μ E(X)=\mu

2.随机变量函数的数学期望

  • 背景:设已知随机变量X的分布,需要计算的不是X的期望,而是X的某个函数的期望,比如说是g(X)的期望,该如何计算呢?

    因为g(X)g(X)也是随机变量,故应有概率分布,它的分布可以由已知的X的分布求出来,一旦知道了g(X)g(X)的分布,就可以按照期望的定义把E[g(X)]E[g(X)]计算出来,但是这种方法一般比较复杂。

  • 引入E(X)E(X)的推理,可得如下的基本公式:

    设X是一个随机变量,Y=g(X)Y=g(X),则
    E(Y)=E[g(X)]={k=1g(xk)pk,Xg(x)f(x)dx,X E(Y)=E[g(X)]= \begin{cases} \sum_{k=1}^\infty g(x_k)p_k,\quad X为离散型 \\ \int_{-\infty}^\infty g(x)f(x)dx,\quad X为连续型 \end{cases}
    当X为离散型时,P(X=xk)=pkP(X=x_k)=p_k

    当X为连续型时,X的密度函数为f(x)f(x)

    因此,求 E[g(X)]E[g(X)]时,就不必知道g(X)g(X)的分布,而只需知道X的分布就可以计算g(X)g(X)的数学期望

  • g(X)g(X)特殊化,可得到各种数字特征:

    • k阶原点矩 E(Xk)E(X^k)
    • k阶中心距 E([XE(X)]k)E([X-E(X)]^k)
    • k阶绝对原点矩 E(Xk)E(|X|^k)
    • k阶绝对中心矩 E(XE(X)k)E(|X-E(X)|^k)

    其中k是正整数。

3.数学期望的性质

  1. 设C是常数,则E(C)=CE(C)=C

  2. 若k是常数,则E(kX)=kE(X)E(kX)=kE(X)

  3. E(X1+X2)=E(X1)+E(X2)E(X_1+X_2)=E(X_1)+E(X_2)

    推广:E[i=1nXi]=i=1nE(Xi)E[\sum_{i=1}^nX_i]=\sum_{i=1}^nE(X_i)

  4. 设X、Y独立,则E(XY)=E(X)E(Y)E(XY)=E(X)E(Y),反过来不一定成立

    推广:E[i=1nXi]=i=1nE(Xi)(Xi)E[\prod_{i=1}^nX_i]=\prod_{i=1}^nE(X_i)(诸X_i独立时)