对于训练集与验证集测试集分布不同的处理办法

分类: 文章 • 2024-11-10 08:31:40

猫的分类举例：

假设我们可以从网上获取大量的高清晰的猫的图片去做分类，如20W张，但是只能获取少量利用手机拍摄的不清晰的图片，如1W张。但是我们系统的目的是应用到手机上做分类。也就是说，我们的训练集和开发集、测试集来自于不同的分布。

那么我们如何去确定是由于分布不匹配的问题导致开发集的误差，还是由于算法中存在的方差问题所致？