这些是在我在入门跨模态所整理的基本概念,如有冒犯原作者，望海涵

一、入门概念学习

1.什么是跨模态检索？

模态是指数据的存在形式，比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同，但都是描述同一事物或事件的。而我们在信息检索的需求往往不只是同一事件单一模态的数据，也可能需要其他模态的数据来丰富我们对同一事物或事件的认知，此时就需要跨模态检索来实现不同模态数据之间的检索。

2.什么是子空间学习(Subspace learning methods)以及其用途？

子空间学习大意是指通过投影，实现高维特征向低维空间的映射，是一种经典的降维思想。例如人脸图像，如果每幅图像提取出来的特征是1000维，则每幅图像对应着1000维空间中的一个点。维数太高给计算带来很多问题，且很多人认为真实有效的人脸图像特征并没有那么高维，可能只有100维，即每幅人脸只是100维空间中的一个点。将特征从1000维压缩到100维，就是子空间学习问题。在模式识别中，可能绝大多数的维数约简（降维，投影）算法都算是子空间学习，如PCA, LDA, LPP, LLE等等。子空间学习的主要问题，就是如何将特征从高维空间压缩到低维空间，需要保留什么样的信息，设定什么样的准则，低维空间的特征具有哪些特征等问题。

3.前期数据处理：中心化，标准化。

中心化:将原始数据减去平均数
标准化:将原始数据减去平均数然后再除以标准差,得到的数据范围是0~1。
标准化目的是消除不同变量间量纲差异，自身变异，数值大小带来的影响。

4.主成分分析（PCA）与典型相关分析（CCA）的异同点。

二者在对特征空间降维，映射至子特征空间的计算方法相同，但其对应的解释不同，二者均是通过构造原变量的适当线性组合提取不同信息，主成分分析着眼于考虑变量的“分散性”信息，而典型相关分析则立足于识别和量化二组变量的统计相关性，是两个随机变量之间的相关性在两组变量之下的推广。

5.典型相关性分析（CCA）的计算思想。

典型相关分析最朴素的思想：首先分别在每组变量中找出第一对典型变量，使其具有最大相关性，然后在每组变量中找出第二对典型变量，使其分别与本组内的第一对典型变量不相关，第二对本身具有次大的相关性。如此下去，直到进行到R步，两组变量的相关系被提取完为止，可以得到R组变量。关于典型相关分析的具体数学推导，我将以附录形式给出。

6. 机器学习性能评估指标

混淆矩阵

True Positive(真正, TP)：将正类预测为正类数.
True Negative(真负,TN)：将负类预测为负类数.
False Positive(假正, FP)：将负类预测为正类数误报（Type I error).
False Negative(假负,FN)：将正类预测为负类数漏报(Type II error).

精确率(precision)定义为：P=TPTP+FP

需要注意的是精确率(precision)和准确率(accuracy)是不一样的
ACC=TP+TNTP+TN+FP+FN
在正负样本不平衡的情况下，准确率这个评价指标有很大的缺陷。比如在互联网广告里面，点击的数量是很少的，一般只有千分之几，如果用acc，即使全部预测成负类（不点击）acc 也有 99% 以上，没有意义。
召回率(recall,sensitivity,true positive rate)定义为：R=TPTP+FN

通俗理解精确率和召回率：

精确率是针对预测结果而言的，它表示的是预测为正的样本中有多少是对的。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)。
而召回率是针对原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。

在信息检索领域，精确率和召回率又被称为查准率和查全率
查准率=检索出的相关信息量检索出的信息总量
查全率=检索出的相关信息量系统中的相关信息总量

平均正确率(Average Precision, AP)：对不同召回率点上的正确率进行平均。

（1）未插值的AP: 某个查询Q共有6个相关结果，某系统排序返回了5篇相关文档，其位置分别是第1，第2，第5，第10，第20位，则AP=(1/1+2/2+3/5+4/10+5/20+0)/6
（2）插值的AP:在召回率分别为0,0.1,0.2,…,1.0的十一个点上的正确率求平均，等价于11点平均
（3）只对返回的相关文档进行计算的AP, AP=(1/1+2/2+3/5+4/10+5/20)/5，倾向那些快速返回结果的系统，没有考虑召回率。

不考虑召回率情况下，单个查询评价指标还有：
（1）[email protected]：在第N个位置上的正确率，对于搜索引擎，考虑到大部分作者只关注前一、两页的结果，[email protected], [email protected]对大规模搜索引擎非常有效。

Mean Average Precision(MAP)

即对所有查询的平均正确率(Average Precision, AP)求宏平均。具体而言，单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高)，MAP就可能越高。如果系统没有返回相关文档，则准确率默认为0。