自动文摘评测方法：Rouge-L、Rouge-N

Rouge-L 的初认识

本人参加百度机器阅读理解比赛，发现阅读理解比赛的评价标注，以Rouge-L为主，若 Rouge-L相同的话，则看 BLEU-4。由此可见，Rough-L 作为自动文摘评测方法是特别有用的，接下来我讲解一下。

Rouge-L 论文：

BLEU-4 的学习，可以看我的另一篇博客，有助于理解Rouge-N：

Rouge(Recall-Oriented Understudy for Gisting Evaluation)，是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要（通常是人工生成的）进行比较计算，得出相应的分值，以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

Rouge-1、Rouge-2、Rouge-N

自动文摘评测方法：Rouge-L、Rouge-N

分母是n-gram的个数，分子是参考摘要和自动摘要共有的n-gram的个数。直接借用文章[2]中的例子说明一下：
自动摘要YY（一般是自动生成的）：

the cat was found under the bed

参考摘要(标准答案)，X1X1（gold standard ，人工生成的）：

the cat was under the bed

summary的1-gram、2-gram如下，N-gram以此类推：

自动文摘评测方法：Rouge-L、Rouge-N

分子是待评测摘要和参考摘要都出现的1-gram的个数，分子是参考摘要的1-gram个数。（其实分母也可以是待评测摘要的，但是在精确率和召回率之间，我们更关心的是召回率Recall，同时这也和上面ROUGN-N的公式相同）

同样，自动文摘评测方法：Rouge-L、Rouge-N

L即是LCS(longest common subsequence，最长公共子序列)的首字母，因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下图：

自动文摘评测方法：Rouge-L、Rouge-N

其中自动文摘评测方法：Rouge-L、Rouge-N 是X和Y的最长公共子序列的长度，考虑顺序。分别表示参考摘要（人工摘要）和自动摘要（机器生成的摘要）的长度（一般就是所含词的个数）

自动文摘评测方法：Rouge-L、Rouge-N 分别表示召回率和准确率。最后的即是我们所说的Rouge-L。

对于什么是召回率、什么是准确率，F-measure 可以看我的另一篇博客：

当自动文摘评测方法：Rouge-L、Rouge-N 很大的时候

所以当，自动文摘评测方法：Rouge-L、Rouge-N 被设置为一个很大的数，所以 Rouge_L几乎只考虑了，与上文所说的一般只考虑召回率对应。

参考文献：