具有正数据集和未标记数据集的二进制半监督分类



我的数据由注释(保存在文件中)组成,其中很少有注释被标记为正数。我想使用半监督和PU分类来将这些评论分为积极和消极两类。我想知道python中是否有半监督和PU实现的公共实现(scikit-learn)?

您可以尝试训练一个单类SVM,看看它能给您带来什么样的结果。我没听说过PU纸。我认为,出于所有实际目的,你最好标记一些点,然后使用半监督的方法。如果很难找到负点,我会尝试使用启发式方法来找到假定的负点(我认为这与PU论文中的技术类似)。你可以对未标记与阳性进行分类,然后只看那些未标记得分很高的,或者学习一类SVM或类似方法,然后在异常值中寻找阴性点。

如果你对实际解决任务感兴趣,我宁愿花时间在手动标记上,也不愿实施花哨的方法。

相关内容

  • 没有找到相关文章

最新更新