小贝子编程

具有正数据集和未标记数据集的二进制半监督分类

本文关键字：数据集二进制分类 scikit-learn classification
更新时间 : 2023-08-27
英文 : Binary semi-supervised classification with positive only and unlabeled data set

我的数据由注释（保存在文件中）组成，其中很少有注释被标记为正数。我想使用半监督和PU分类来将这些评论分为积极和消极两类。我想知道python中是否有半监督和PU实现的公共实现（scikit-learn）？

您可以尝试训练一个单类SVM，看看它能给您带来什么样的结果。我没听说过PU纸。我认为，出于所有实际目的，你最好标记一些点，然后使用半监督的方法。如果很难找到负点，我会尝试使用启发式方法来找到假定的负点（我认为这与PU论文中的技术类似）。你可以对未标记与阳性进行分类，然后只看那些未标记得分很高的，或者学习一类SVM或类似方法，然后在异常值中寻找阴性点。

如果你对实际解决任务感兴趣，我宁愿花时间在手动标记上，也不愿实施花哨的方法。

具有正数据集和未标记数据集的二进制半监督分类

相关内容

最新更新

热门标签：