一、 协方差
1、为什么需要协方差
定义:假如有N个样本的集合{X1,X2,...XN},我们可以定义出以下定义。

标准差是用来描述离散程度,。之所以除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。
标准差和方差一般是用来描述一维数据的,协方差就是这样一种用来度量两个随机变量关系的统计量
2、协方差的定义
仿照方差的定义
可以这样定义协方差

来度量各个维度偏离其均值的程度。
两个或者两个以上的随机变量函数的情况
设Z是随机变量X,Y的函数Z=g(X,Y),(g是连续函数),那么Z是一个一维随机变量,若二维随机变量(X,Y)的概率密度为f(x,y),则有,E(Z)=E[g(X,Y)]=∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdy
若(X,Y)为离散型随机变量,其分布律为P{X=xi,Y=yj}=pij,i,j=1,2,⋯,则有E(Z)=E[g(X,Y)]=j=1∑∞i=1∑∞g(xi,yj)pij
故有:cov(X,Y)=n∑i=1n(Xi−X)(Yi−Y)=E[(X−E(X))(Y−E(Y))]
注意这里字母写成n是为了推出期望表达式。
二、协方差矩阵
1、协方差矩阵的定义
矩阵中的数据按行排列与按列排列求出的协方差矩阵是不同的,这里默认数据是按行排列。即每一行是一个observation(or sample),那么每一列就是一个随机变量。
Xm×n=⎣⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2⋯⋯⋱⋯a1na2n⋮amn⎦⎥⎥⎥⎤=[c1,c2,⋯,cn]
则协方差矩阵为
⎣⎢⎢⎢⎡cov(c1,c1)cov(c2,c1)⋮cov(cn,c1)cov(c1,c2)cov(c2,c2)⋮cov(cn,c2)⋯⋯⋱⋯cov(c1,cn)cov(c2,cn)⋮cov(cn,cn)⎦⎥⎥⎥⎤
协方差矩阵的维度等于随机变量的个数,即每一个 observation 的维度。
2、协方差矩阵公式推导
协方差矩阵公式推导
参考博客
我所理解的协方差矩阵