对一小组标记数据的随机森林分类器

问题描述:

我有大约50行数据有标签。数据中还有一个真相来源。真相来源描述了最终用户体验。对一小组标记数据的随机森林分类器

我也有50,000行数据,但它没有数据中的真实来源。

我打算执行以下操作: - 使用50行数据构造随机森林分类器。

不确定数据集是否非常小以开始。

我已阅读关于半监督学习的内容,这里是我理解的内容,并将用于我的情况。

使用我从这50行获得的分类器将它应用于50,000行数据。 然后从错误率最低或最准确的未标记数据中选择最上面的k行。

将此K行添加到标记的数据,然后再次在这组数据上运行分类器并重复上述过程。

有没有人试过这种技术?

基本上我试图解决使用小数据集的分类问题,然后应用于更大的数据集。

如果我们的目标是为5万个未标记的观察值计算缺失的“真值源”值,我认为您不会通过您描述的增量训练过程获得任何收益。我认为最好的选择是用50个带标记的观测值来训练一个随机森林,并用它来计算所有未标记数据的真值来源。为了估计其性能,我建议你重复进行交叉验证。

我不认为增量程序增加任何值的原因是你没有办法告诉哪些未标记的观测值具有最低的预测误差。如果您使用某种形式的叶节点纯度来确定每个预测的效果如何,那么您可能会冒险重新训练过度配置结果中的分类器,使其变得越来越糟糕。