#Paper Reading# On Sampled Metrics for Item Recommendation
论文题目: On Sampled Metrics for Item Recommendation
论文地址: https://dl.acm.org/doi/abs/10.1145/3394486.3403226
论文发表于: KDD 2020 best paper(CCF A类会议)
论文大体内容:
本文主要论述了在推荐领域中,使用采样testset进行evaluate来比较各个模型,有可能会得出相反的结论。
Motivation:
数据量太大,所以工业界很多情况下都会选择采样。但是采样后计算的指标,是否与不采样的一致呢,这个问题本文从理论上去证明。
Contribution:
本文作者从理论上证明采样对验证带来的bais,以及修正方法。
1. 采样前采样后各项指标的比较,可以容易得出相反的结论。
2. 采样数据越多(样本量越接近100%),则指标也越接近真实值。
3. 理论证明部分请见原文。
4. 作者建议可以使用多采样几次,比如随机种子或者N折交叉验证,去规避这个问题。
实验
5. Dataset
①real dataset;
②Movielens 1M;
6. 实验结果
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!