用于文本分类的interport随机森林模型



我有一个文本数据集,在其中我手动将每条记录分类为两个可能的类中的一个。我在语料库上创建了一个TFIDF,没有英语停止语,训练/测试了一个随机森林分类器,评估了模型,并将模型应用于更大的文本语料库。到目前为止一切都很好,但如何了解更多关于我的模型的信息,即如何了解哪些单词对模型"重要"?

经过训练的RF应具有属性feature_importances_。我认为您必须使用oob_score=True(在构造函数中)来训练模型。功能重要性将告诉您哪些功能(数据矩阵列)具有影响力。要获取单词,请返回tfidf矢量器并获取其vocabulary_属性(注意后面的下划线),这是一个从单词到列索引的dict。

有关词汇表属性的解释,请参阅以下文章:sklearn:TFDF Transformer:如何获取文档中给定单词的tf idf值

相关内容

  • 没有找到相关文章

最新更新