需要帮助将scikit-learn应用于这个不平衡的文本分类任务



我有一个多类文本分类/分类问题。我有一组具有K不同互斥类的基础真值数据。这是一个不平衡的问题,体现在两个方面。首先,有些课程比其他课程要频繁得多。第二,我们对一些类比其他类更感兴趣(这些类通常与它们的相对频率呈正相关,尽管有一些感兴趣的类相当罕见)。

我的目标是开发一个分类器或它们的集合,以便能够以高精度(至少80%)对感兴趣的k << K类进行分类,同时保持合理的召回率(什么是"合理"有点模糊)。

我使用的功能大多是典型的基于unigram/bigram的功能,加上一些来自正在分类的传入文档的元数据的二进制功能(例如,它们是通过电子邮件还是通过web表单提交的)。

由于数据不平衡,我倾向于为每个重要的类开发二元分类器,而不是像多类SVM那样单一的分类器。

scikit-learn中实现的ML学习算法(二进制或非二进制)允许调整到精度的训练(与例如召回或F1相比),我需要为此设置哪些选项?

scikit-learn中的哪些数据分析工具可以用于特征选择,以缩小可能与特定类别的面向精度的分类最相关的特征?

这不是一个真正的"大数据"问题:K是关于100的,k是关于15的,可供我训练和测试的样本总数大约是100,000

Thx

假设k很小,我将手动执行此操作。对于每个期望的类,训练您的单个分类器(一个vs其他),查看准确率-召回率曲线,然后选择给出期望精度的阈值。

相关内容

  • 没有找到相关文章

最新更新