对于训练集与验证集测试集分布不同的处理办法
猫的分类举例:
假设我们可以从网上获取大量的高清晰的猫的图片去做分类,如20W张,但是只能获取少量利用手机拍摄的不清晰的图片,如1W张。但是我们系统的目的是应用到手机上做分类。 也就是说,我们的训练集和开发集、测试集来自于不同的分布。
那么我们如何去确定是由于分布不匹配的问题导致开发集的误差,还是由于算法中存在的方差问题所致?
猫的分类举例:
假设我们可以从网上获取大量的高清晰的猫的图片去做分类,如20W张,但是只能获取少量利用手机拍摄的不清晰的图片,如1W张。但是我们系统的目的是应用到手机上做分类。 也就是说,我们的训练集和开发集、测试集来自于不同的分布。
那么我们如何去确定是由于分布不匹配的问题导致开发集的误差,还是由于算法中存在的方差问题所致?