随机森林分类器在一个小的标记数据集



我有大约50行带有标签的数据。数据中也有真实的来源。真相来源描述了最终用户体验。

我还有50000行数据,但数据中没有真值源。

我计划做以下事情:-使用这50行数据来构造随机森林分类器。

不确定数据集一开始是否很小。

我读过关于半监督学习的文章,以下是我所理解的,并将其应用于我的情况。

使用我从这50行中得到的分类器将其应用于50000行数据。然后从错误率最低或最准确的未标记数据中选择最上面的k行。

将这K行添加到标记的数据中,然后对这组数据再次运行分类器,并重复上述过程。

有人试过这种技术吗?

基本上,我试图解决分类问题,先处理小数据集,然后应用于较大的数据集。

如果目标是为50000个未标记的观测值估算缺失的"真值源"值,我认为您所描述的增量训练过程不会带来任何好处。我认为最好的选择是使用50个标记的观测值训练一个随机森林,并用它来估算所有未标记数据的真实来源。为了估计它的性能,我建议你重复交叉验证。

我不认为增量过程增加任何值的原因是,你无法判断哪些未标记的观测值的预测误差最低。如果你使用某种形式的叶节点纯度来确定每个预测的好坏,你就有可能根据过度拟合的结果重新训练分类器,使其变得越来越糟。

最新更新