随机森林分类器在一个小的标记数据集

我有大约50行带有标签的数据。数据中也有真实的来源。真相来源描述了最终用户体验。

我还有50000行数据，但数据中没有真值源。

我计划做以下事情：-使用这50行数据来构造随机森林分类器。

不确定数据集一开始是否很小。

我读过关于半监督学习的文章，以下是我所理解的，并将其应用于我的情况。

使用我从这50行中得到的分类器将其应用于50000行数据。然后从错误率最低或最准确的未标记数据中选择最上面的k行。

将这K行添加到标记的数据中，然后对这组数据再次运行分类器，并重复上述过程。

有人试过这种技术吗？

基本上，我试图解决分类问题，先处理小数据集，然后应用于较大的数据集。

如果目标是为50000个未标记的观测值估算缺失的"真值源"值，我认为您所描述的增量训练过程不会带来任何好处。我认为最好的选择是使用50个标记的观测值训练一个随机森林，并用它来估算所有未标记数据的真实来源。为了估计它的性能，我建议你重复交叉验证。

我不认为增量过程增加任何值的原因是，你无法判断哪些未标记的观测值的预测误差最低。如果你使用某种形式的叶节点纯度来确定每个预测的好坏，你就有可能根据过度拟合的结果重新训练分类器，使其变得越来越糟。

相关内容