我正在使用Scikit学习使用LinearSVC对文本(在我的情况下是推文)进行分类。当文本与训练集中定义的任何类别不匹配时,是否有方法将其归类为未分类?例如,如果我有体育、政治和电影的分类,并试图在一条关于计算的推特上预测分类,那么它应该保持未分类状态。
在监督学习方法中,不能添加额外的类别。
因此,我会使用一些启发法。试着预测每个类别的概率。然后,如果所有4个或至少3个概率近似相等,则可以说样本是"未知的"。对于这种方法,LinearSVC或其他类型的支持向量分类器是不好的合适,因为它不会自然地给你概率。另一个分类器(逻辑回归、贝叶斯、树、森林)会更好