对于训练集与验证集测试集分布不同的处理办法

猫的分类举例:

 

假设我们可以从网上获取大量的高清晰的猫的图片去做分类,如20W张,但是只能获取少量利用手机拍摄的不清晰的图片,如1W张。但是我们系统的目的是应用到手机上做分类。 也就是说,我们的训练集和开发集、测试集来自于不同的分布。

 

那么我们如何去确定是由于分布不匹配的问题导致开发集的误差,还是由于算法中存在的方差问题所致?

 

对于训练集与验证集测试集分布不同的处理办法