最大边缘相关(Maximal Marginal Relevance,MMR)对文档重排序

采用MMR(Maximal Marginal Relevance)算法对文档diverse ranking。


  最大边缘相关(Maximal Marginal Relevance,MMR)对文档重排序最大边缘相关(Maximal Marginal Relevance,MMR)对文档重排序


MMR的公式中可以看出,diverse ranking的实现是权衡Query与Document相关性和Document间的冗余性的结果。


MMR进行文档重定序的计算方法:

1. 用常用IR方法取得前K个文档记Dr= IR(C, Q, K)

2. 选max sim(di ε D , Q)作为第一个文档,即让Ranked = <di>

3. Let D= D\{di},从中去掉这个元素

4. While D is not empty, do:

a. Find di withmax MMR(Q, D, Ranked)

b. Let Ranked = Ranked append di

c. Let D= D\{di}

算法思想:

1、先根据Query和Document的相似度给出包含k个文档的集合D;

2、先在集合D中选取一篇与Query最为相似的文档d加入重排序集合R,在D中去掉d;

3、D中所有的文档计算MMR值,分值最大文档d的加入R,并在D中去掉d;

4、重复步骤3,直到D为空,此时集合R即为重排序后的有序集合。