机器学习|统计三大分布(卡方分布、t分布、F分布)定义及基本性质|15mins入门|概统学习笔记(二十)

统计三大分布

1. χ2\chi^2分布

  • 本质:χ2\chi^2分布是由正态分布派生出来的一种分布

  • 定义:设X1,X2,...,XnX_1,X_2,...,X_n相互独立,都服从正态分布N(0,1)N(0,1),则称随机变量:
    χ2=X12+X22++Xn2 \chi^2=X_1^2+X_2^2+···+X_n^2
    所服从的分布为自由度为n的χ2\chi^2分布。记为:χ2\chi^2~χ2(n)\chi^2(n)

    χ2\chi^2分布的密度函数为:
    f(x;n)={12n/2Γ(n2)xn21exp(x2)x>00 f(x;n)= \begin{cases} \frac{1}{2^{n/2}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}exp(-\frac{x}{2}) & x>0 \\ 0 & 其他 \end{cases}
    机器学习|统计三大分布(卡方分布、t分布、F分布)定义及基本性质|15mins入门|概统学习笔记(二十)

    其中,伽马函数Γ(x)\Gamma(x)通过积分
    Γ(x)=0exp(t)tx1dtx>0 \Gamma(x)=\int_0^{\infty}exp(-t)t^{x-1}dt \quad x>0
    Γ\Gamma函数的性质:
    Γ(a+1)=aΓ(a)Γ(1)=Γ(0)=1Γ(n+1)=n!Γ(12)=(π) \Gamma(a+1)=a\Gamma(a) \\ \Gamma(1)=\Gamma(0)=1 \\ \Gamma(n+1)=n! \\ \Gamma(\frac{1}{2})=\sqrt(\pi)

  • χ2\chi^2分布性质

    1. X1,X2,...,XnX_1,X_2,...,X_n相互独立,都服从正态分布N(μ,σ2)N(\mu,\sigma^2),则

      χ2=1σ2i=1n(Xiμ)2\chi^2=\frac{1}{\sigma^2}\sum_{i=1}^n(X_i-\mu)^2~χ2(n)\chi^2(n)

    2. X1X_1$\chi^2(n_1)$,$X_2$χ2(n2)\chi^2(n_2),且X1X_1,X2X_2相互独立,则X1+X2X_1+X_2~χ2(n1+n2)\chi^2(n_1+n_2)

      这个性质叫χ2\chi^2分布的可加性

    3. XX~χ2(n)\chi^2(n),则E(X)=n,D(X)=2nE(X)=n, D(X)=2n

      推论:应用中心极限定理得,若XX~χ2(n)\chi^2(n),则当n充分大时,Xn2n\frac{X-n}{\sqrt{2n}}的分布近似正态分布N(0,1)N(0,1)

    4. χ2\chi^2分布的分位点:对于给定的正数α(0<α<1),\alpha(0<\alpha<1),称满足条件

    P{χ2>χα2(n)}=χα2(n)+f(y)dy=α P\{\chi^2>\chi_\alpha^2(n)\}=\int_{\chi_\alpha^2(n)}^{+\infty}f(y)dy=\alpha

    ​ 的点χα2(n)\chi_\alpha^2(n)χ2(n)\chi^2(n)分布上的α\alpha分位点,α\alpha是概率

    机器学习|统计三大分布(卡方分布、t分布、F分布)定义及基本性质|15mins入门|概统学习笔记(二十)

2. t分布(学生氏分布)

  • 定义:设XX$N(0,1)$,$Y$χ2(n)\chi^2(n),且X与Y相互独立,则称变量T=XY/nT=\frac{X}{\sqrt{Y/n}}所服从的分布为自由度为n的t分布。记为TT~t(n)t(n).

    TT的密度函数为:
    f(x;n)=Γ(n+1)/2Γ(n/2)nπ(1+x2n)n+12 f(x;n)=\frac{\Gamma(n+1)/2}{\Gamma(n/2)\sqrt{n\pi}}(1+\frac{x^2}{n})^{-\frac{n+1}{2}}
    具有自由度为n的t分布的随机变量T的数学期望和方差为:
    E(T)=0;D(T)=nn2,(n>2) E(T)=0;D(T)=\frac{n}{n-2}, \quad(n>2)
    t分布的密度函数关于x=0对称,且
    limxf(x;n)=0 lim_{|x|\to \infty}f(x;n)=0
    当n充分大时,其图形类似于标准正态分布密度函数的图形。

机器学习|统计三大分布(卡方分布、t分布、F分布)定义及基本性质|15mins入门|概统学习笔记(二十)

​ 不难看出,当n充分大时,t分布近似N(0,1)N(0,1)分布。但对于较小的n,t分布与N(0,1)N(0,1)分布相差很大

  • t分布的分位点

    对于给定的α(0<a<1)\alpha(0<a<1),称满足条件
    P{t>tα(n)}=tα(n)+h(t)dt=α P\{t>t_\alpha(n)\}=\int_{t_\alpha(n)}^{+\infty}h(t)dt=\alpha
    的点tα(n)t_\alpha(n)t(n)t(n)分布的上α\alpha分位点,α\alpha是概率。

机器学习|统计三大分布(卡方分布、t分布、F分布)定义及基本性质|15mins入门|概统学习笔记(二十)

由t分布上α\alpha分位点的定义及h(t)h(t)图像的对称性可知
t1α(n)=tα(n) t_{1-\alpha}(n)=-t_{\alpha}(n)

3.F分布

  • 定义:设XX$\chi^2(n_1)$,$Y$χ2(n2)\chi^2(n_2),X与Y相互独立,则称统计量F=X/n1Y/n2F=\frac{X/n_1}{Y/n_2},服从自由度为n1n_1n2n_2的F分布,n1n_1称为第一自由度,n2n_2称为第二自由度,记作FF~F(n1,n2)F(n_1,n_2)

    由定义可见,1F=Y/n2X/n1\frac{1}{F}=\frac{Y/n_2}{X/n_1}~F(n2,n1)F(n_2,n_1)

    若X~F(n1,n2)F(n_1,n_2),X的概率函数为
    f(x;n1,n2)={Γ(n1+n22)Γ(n12)Γ(n22)(n1n2)(n1n2x)n121(1+n1n2x)n1+n22x00x<0 f(x;n_1,n_2)= \begin{cases} \frac{\Gamma(\frac{n_1+n_2}{2})}{\Gamma(\frac{n_1}{2})\Gamma(\frac{n_2}{2})}(\frac{n_1}{n_2})(\frac{n_1}{n_2}x)^{\frac{n_1}{2}-1}(1+\frac{n_1}{n_2}x)^{-\frac{n_1+n_2}{2}} & x\geq 0 \\ 0 & x<0 \end{cases}
    X的数学期望为
    E(X)=n2n22n2>2 E(X)=\frac{n_2}{n_2-2} \quad 若n_2>2
    即它的数学期望并不依赖于第一自由度n1n_1.

    机器学习|统计三大分布(卡方分布、t分布、F分布)定义及基本性质|15mins入门|概统学习笔记(二十)

    若随机变量X服从分布F(n,n)F(n,n),则

P{X1}=P{X1}=0.5 P\{X\leq1\}=P\{X\geq 1\}=0.5

  • F分布的分位点

    对于给定的α(0<α<1)\alpha(0<\alpha<1),称满足条件
    P{F>Fα(n1,n2)}=Fα(n1,n2)+h(t)dt=α P\{F>F_\alpha(n_1,n_2)\}=\int_{F_{\alpha}(n_1,n_2)}^{+\infty}h(t)dt=\alpha
    的点Fα(n1,n2)F_\alpha(n_1,n_2)F(n1,n2)F(n_1,n_2)分布的上α\alpha分位点,α\alpha是概率

机器学习|统计三大分布(卡方分布、t分布、F分布)定义及基本性质|15mins入门|概统学习笔记(二十)
关于F分布的上α\alpha分位点的性质:
F1α(n1,n2)=1Fα(n2,n1) F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}