最大边缘相关(Maximal Marginal Relevance,MMR)对文档重排序
采用MMR(Maximal Marginal Relevance)算法对文档diverse ranking。
从MMR的公式中可以看出,diverse ranking的实现是权衡Query与Document相关性和Document间的冗余性的结果。
用MMR进行文档重定序的计算方法:
1. 用常用IR方法取得前K个文档记Dr= IR(C, Q, K)
2. 选max sim(di ε D , Q)作为第一个文档,即让Ranked = <di>
3. Let D= D\{di},从中去掉这个元素
4. While D is not empty, do:
a. Find di withmax MMR(Q, D, Ranked)
b. Let Ranked = Ranked append di
c. Let D= D\{di}
算法思想:
1、先根据Query和Document的相似度给出包含k个文档的集合D;
2、先在集合D中选取一篇与Query最为相似的文档d加入重排序集合R,在D中去掉d;
3、对D中所有的文档计算MMR值,分值最大文档d的加入R,并在D中去掉d;
4、重复步骤3,直到D为空,此时集合R即为重排序后的有序集合。