text retrieval week3
一、文本挖掘系统的评价方法
1. cranfield评价方法论
构建一个可重用的测试集并定义度量方法
2. P-R
3. 排序查询结果的评价 P-R曲线
量化评价该排序方法 平均精确度
4. mean average precision(平均正确率均值)
对于一个主题,求查询所得的相关文档的正确率并求均值
(以下为转载的MAP例子)
- mean reciprocal rank(MRR)
对于一个主题,查询结果的排序为n,则其得分为1/n,最终再对每个文档的得分求均值。
(以下为转载的MRR例子) - 多层次的判别方法
CG不考虑在搜索结果页面中结果的排序,它是在这个搜索结果list里面所有的结果的等级对应的得分的总和。
DCG对排序2之后的得分项都加上有log值约束的值,思想是得分高却排位低的分数在最后统计得分时应对分数作相应的打折。
NDCG是用DCG除以IDCG,IDCG是人类理想排序状况下得到的DCG值。 - 显著性检验
若系统b的值大于a,则sigh test为+,wilcoxon为b-a的差值,p为方差检验的p值 - 池化
- 总结
练习