数学基础(二)——参数估计与矩阵运算基础
参数估计与矩阵运算基础
ps: 个人笔记 根据视频和PDF学习
1 期望
离散型:
连续型:
即:概率加权下的“平均值”
期望的性质
无条件成立
若X和Y相互独立
关于不相关和独立的区别,稍后马上给出。
2 方差
定义
无条件成立
X和Y独立
才可以成立。
此外,方差的平方根,称为标准差
3 协方差
定义
性质:
协方差和独立、不相关
X和Y独立时,
而
从而,当X和Y独立时,
但X和Y独立这个前提太强,我们定义:若Cov(X,Y)=0,称X和Y不相关。因为独立时,肯定协方差为0;但是协方差为0,并不一定独立,所以提出不相关的概念。
协方差的意义
协方差是两个随机变量具有相同方向变化趋势的度量;
若Cov(X,Y)>0,它们的变化趋势相同,
若Cov(X,Y)<0,它们的变化趋势相反;
若Cov(X,Y)=0,称X和Y不相关。
思考:两个随机变量的协方差,是否有上界?
协方差的上界
若
则
当且仅当X和Y之间有线性关系时,等号成立。
再谈独立与不相关
因为上述定理的保证,使得“不相关”事实上即“线性独立”。即:若X与Y不相关,说明X与Y之间没有线性关系(但有可能存在其他函数关系),不能保证X和Y相互独立。PS:紧紧是线性独立。
⭐但对于二维正态随机变量,X与Y不相关等价于X与Y相互独立。
4 相关系数
定义
由协方差上界定理可知,
容易看到,相关系数是标准尺度下的协方差。上面关于协方差与XY相互关系的结论,完全适用于相关系数和XY的相互关系。
协方差矩阵
对于n维随机向量(X 1 ,X 2 …X n ),任意两个元素Xi和Xj都可以得到一个协方差,从而形成n*n的矩阵;显然,协方差矩阵是对称阵。对角线上就是方差5 矩
对于随机变量X,X的k阶原点矩为
方差就是X的二阶中心距。
统计参数的总结
均值(期望,一阶)方差(标准差,二阶)
变异系数(Coefficient of Variation):标准差与平均数的比值称为变异系数,记为C·V
偏度Skew(三阶)
峰度Kurtosis(四阶)
偏度
偏度衡量随机变量概率分布的不对称性。偏度的值可以为正,可以为负或者无定义。
偏度为负(负偏态)意味着在概率密度函数左侧的尾部比右侧的长,绝大多数的值(包括中位数在内)位于平均值的右侧。
偏度为正(正偏态)意味着在概率密度函数右侧的尾部比左侧的长,绝大多数的值(包括中位数在内)位于平均值的左侧。
偏度为零表示数值相对均匀地分布在平均值的两侧,但不一定意味着一定是对称分布。
偏度公式
其中μ 3 是三阶中心矩,σ是标准差。E是期望算子。等式的最后以三阶累积量与二阶累积量的1.5次方的比率来表示偏度。这和用四阶累积量除去二阶累积量的平方来表示峰度的方法向类似。偏度有时用Skew[X]来表示。
峰度
峰度通常被定义四阶中心矩除以方差的平方再减去3:
也被称为超值峰度(excess kurtosis)。
“减3”是为了让正态分布的峰度为0。
如果超值峰度为正,称为尖峰态(leptokurtic),超值峰度为负,称为低峰态(platykurtic)。
6 切比雪夫不等式
设随机变量X的期望为μ,方差为σ 2 ,对于任意整数ε,有:
该不等式进一步说明了方差的含义,即方差越小越靠近期望。
该不等式可证明大数定理。
7 大数定理
设随机变量X 1 ,X 2 …X n …互相独立,并且具有相同的期望μ和方差σ 2 。作前n个随机变量的平均
,则对于任意整数ε,有
大数定理的意义
当n很大时,随机变量X 1 ,X 2 …X n 的平均值Y n在概率意义下无限接近期望μ 。出现偏离是可能的,但这种可能性很小,当n无限大时,这种可能性的概率为0。PS:⭐用频率估计概率可以从大数定理中得到
重要推论
一次试验中事件A发生的概率为p;重复n次独立试验中,事件A发生了n A 次,则p、n、n A 的关系满足:对于任意整数ε,
8 伯努利定理
上述推论是最早的大数定理的形式,称为伯努利定理。该定理表明事件A发生的频率n A /n以概率收敛于事件A的概率p,以严格的数学形式表达了频率的稳定性。上述事实为我们在实际应用中用频率来估计概率提供了一个理论依据。
回忆一下朴素贝叶斯做垃圾邮件分类的例子,就是用的频率估计的概率。
9 中心极限定理
设随机变量X 1 ,X 2 …X n …互相独立,服从同一分布,并且具有相同的期望μ和方差σ **2 ,则随机变量
的分布收敛到标准正态分布。
容易得到: 收敛到正态分布N(nμ,nσ **2 )
中心极限定理的意义
实际问题中,很多随机现象可以看做许多因素的独立影响的综合反应,往往近似服从正态分布。城市耗电量:大量用户的耗电量总和
测量误差:许多观察不到的、微小误差的总和
注意:是多个随机变量的和才可以,有些问题是乘性误差,则需要鉴别或者取对数后再使用。
线性回归中,将使用该定理论证最小二乘法的合理性
10 样本的统计量
设X 1 ,X 2 ,…,X n 为一组样本,则样本均值
样本方差
⭐样本方差的分母使用n-1而非n,是为了无偏。
11 样本的矩
k阶样本原点矩
k阶样本中心矩
思考
随机变量的矩和样本的矩,有什么关系?换个提法:假设总体服从某参数为θ(存在且未知,有可能是值或者向量)的分布,从总体中抽出一组样本X 1 ,X 2 …,X n ,如何估计参数θ?样本是独立同分布的
可以通过X 1 ,X 2 …,X n 方便的计算出样本的k阶矩
假设样本的k阶矩等于总体的k阶矩,可估计出总体的参数。
12 矩估计
设总体的均值为μ,方差σ 2 ,(μ和σ未知,待求)则有中心距表达式:
根据该总体的一组样本,求得中心距:
矩估计的结论
根据各自阶的中心矩相等,计算得到:
由于是根据样本求得的估计结果,根据记号习惯,写作:
⭐用样本的均值作为总体的均值,用样本的伪方差作为总体的方差
例:正态分布的矩估计
在正态分布的总体中采样得到n个样本:X 1 ,X 2 …X n ,估计该总体的均值和方差。解:直接使用矩估计的结论
例:均匀分布的矩估计
设X1,X2,…,Xn为定义在[a,b]上的均匀分布的总体采样得到的样本,求a,b。解:已知均匀分布的均值和方差为
矩估计要求满足
从而
13 极大似然估计
设总体分布为f(x,θ) ,X 1 , X 2 … X n 为该总体采样得到的样本。因为X 1 ,X 2 …X n 独立同分布,于是,它们的联合密度函数为:
求参数θ的值,使得似然函数取极大值,这种方法就是极大似然估计。
PS:⭐这里是对最大似然估计中为什么“最大”的解释!!!
极大似然估计的具体实践操作
在实践中,由于求导数的需要,往往将似然函数取对数,得到对数似然函数;若对数似然函数可导,可通过求导的方式,解下列方程组,得到驻点,然后分析该驻点是极大值点
极大似然估计
找出与样本的分布最接近的概率分布模型。简单的例子,10次抛硬币的结果是:正正反正正正反反正正。假设p是每次抛硬币结果为正的概率。则:得到这样的实验结果的概率是:
极大似然估计MLE
目标函数:
思考:如何求解?
一般形式
正态分布的极大似然估计
若给定一组样本X 1 ,X 2 …X n ,已知它们来自于高斯分布N(μ,σ),试估计参数μ,σ。
按照MLE的过程分析
高斯分布的概率密度函数:
将X i 的样本值x i 带入,得到:
化简对数似然函数:
参数估计的结论
目标函数
将目标函数对参数μ,σ分别求偏导,很容易得到μ,σ的式子:
符合直观想象
上述结论和矩估计的结果是一致的,并且意义非常直观:样本的均值即高斯分布的均值,样本的方差即高斯分布的方差。注:经典意义下的方差,分母是n-1;在似然估计的方法中,求的方差是n
该结论将在EM(期望最大化算法)、高斯混合模型中将继续使用。
线性代数
方阵的行列式(递归定义)1阶方阵的行列式为该元素本身
n阶方阵的行列式等于它的任一行(或列)的各元素与其对应的代数余子式乘积之和。
14 范德蒙行列式Vandermonde
证明范德蒙行列式Vandermonde:
提示:数学归纳法
15 矩阵的乘法
A为m×s阶的矩阵,B为s×n阶的矩阵,那么,C=A×B是m×n阶的矩阵,其中,
16 矩阵的秩
在m×n矩阵A中,任取k行k列,不改变这k 2 个元素在A中的次序,得到k阶方阵,称为矩阵A的k阶子式。显然,m×n矩阵A的k阶子式有
设在矩阵A中有一个不等于0的r阶子式D,且所有r+1阶子式(如果存在的话)全等于0,那么,D称为矩阵A的最高阶非零子式,r称为矩阵A的秩,记做R(A)=r。
n×n的可逆矩阵,秩为n
可逆矩阵又称满秩矩阵
矩阵的秩等于它行(列)向量组的秩
17 秩与线性方程组的解的关系
对于n元线性方程组Ax=b,有唯一解的充要条件是R(A)=R(A,b)=n
有无限多解的充要条件是R(A)=R(A,b)<n
推论
Ax=0有非零解的充要条件是R(A)<nAx=b有解的充要条件是R(A)=R(A,b)
18 向量组等价
向量b能由向量组A:a 1 ,a 2 ,...,a m 线性表示的充要条件是矩阵A=(a 1 ,a 2 ,...a m )的秩等于矩阵B=(a 1 ,a 2 ,...a m ,b)的秩。设有两个向量组A:a 1 ,a 2 ,...,a m 及B:b 1 ,b 2 ,...,b n ,若B组的向量都能由向量组A线性表示,则称向量组B能由向量组A线性表示。若向量组A与向量组B能相互线性表示,则称两个向量组等价。
19 系数矩阵
把向量组A和B所构成的矩阵依次记做A=(a 1 ,a 2 ,...,a m )和B=(b 1 ,b 2 ,...,b n ),B组能由A组线性表示,即对每个向量b j ,存在
使得
从而得到系数矩阵K
对C=AB的重认识
由此可知,若C=AB,则矩阵C的列向量能由A的列向量线性表示,B即为这一表示的系数矩阵。向量组B: b 1 ,b 2 ,...,b n 能由向量组A: a 1 ,a 2 ,...,a m线性表示的充要条件是矩阵A=(a 1 ,a 2 ,...,a m )的秩等于矩阵(A,B)=(a 1 ,a 2 ,...,a m ,b 1 ,b 2 ,...,b n )的秩,即:R(A)=R(A,B)
20 正交阵
若n阶矩阵A满足A T A=I,成A为正交矩阵,简称正交阵。A是正交阵的充要条件:A的列向量都是单位向量,且两两正交。
A是正交阵,x为向量,则A . x称作正交变换。
正交变换不改变向量长度
21 特征值和特征向量
A是n阶矩阵,若数λ和n维非0列向量x满足Ax=λx,那么,数λ称为A的特征值,x称为A的对应于特征值λ的特征向量。根据定义,立刻得到(A-λI)x = 0,令关于λ 的多项式|A-λI|为0,方程|A-λI|=0的根为A的特征值;将根λ 0 带入方程组(A-λI)x = 0 ,求得到的非零解,即λ 0 对应的特征向量。
22 特征值的性质
设n阶矩阵A=(a ij )的特征值为λ 1 ,λ 2 ,...λ n ,则λ 1 +λ 2 +...+λ n =a11+a22+…+ann
λ 1 λ 2 …λ n =|A|
矩阵A主行列式的元素和,称作矩阵A的迹。
已知λ是方阵A的特征值,则λ 2 是A 2 的特征值; A可逆时,λ -1 是A -1 的特征值。
23 不同特征值对应的特征向量
设λ 1 ,λ 2 ,...,λ m 是方阵A的m个特征值,p 1 ,p 2 ,...,p m是依次与之对应的特征向量,若λ 1 ,λ 2 ,...,λ m 各不相等,则p 1 ,p 2 ,...,p m 线性无关。总结
不同特征值对应的特征向量,线性无关。
若方阵A是对称阵呢?结论是否会加强?
协方差矩阵、二次型矩阵、无向图的邻接矩阵等都是对称阵
在谱聚类中将会有所涉及
24 实对称阵不同特征值的特征向量正交
令实对称矩阵为A,它的两个不同的特征值λ 1 λ 2 对应的特征向量分别是μ 1 μ 2则有:Aμ 1 =λ 1 μ 1 , Aμ 2 =λ 2 μ 2
(Aμ 1 ) T =(λ 1 μ 1 ) T ,从而:μ 1 T A=λ 1 μ 1 T
所以:μ 1 T Aμ 2 =λ 1 μ 1 T μ 2
同时,μ 1 T Aμ 2 =μ 1 T (Aμ 2 )=μ 1 T λ 2 μ 2 = λ 2 μ 1 T μ 2
所以,λ 1 μ 1 T μ 2 =λ 2 μ 1 T μ 2
故:(λ 1 -λ 2 ) μ 1 T μ 2 =0
而λ 1 ≠λ 2 ,所以μ 1 T μ 2 =0,即:μ 1 ,μ 2 正交。
25 实对称阵的特征值是实数
设复数λ为对称阵A的特征值,复向量x为对应的特征向量,即Ax=λx(x≠0)用 表示λ的共轭复数, 表示x的共轭复向量,而A是实矩阵,有
利用上述结论很快得到:将实数λ带入方程组(A- λ I)x=0,该方程组为实系数方程组,因此,实对称阵的特征向量可以取实向量。
最终结论
设A为n阶对称阵,则必有正交阵P,使得
Λ是以A的n个特征值为对角元的对角阵。
26 二次型
含有n个变量的二次齐次函数,称为二次型;一个二次型对应一个对称阵;
而对称阵可以由正交阵对角化,
从而二次型可以化成只有n个变量平方项的标准型,而这个正交阵,对应着坐标系的旋转变化。
27 正定阵
对于n阶方阵A,若任意n阶向量x,都有x T Ax>0,则称A是正定阵。若条件变成x T Ax≥0,则A称作半正定阵
类似还有负定阵,半负定阵。
正定阵的判定
对称阵A为正定阵;
A的特征值都为正;
A的顺序主子式大于0;
以上三个命题等价。