min_df是如何工作的



在CountVectorizer变为(40845 X 218904)后,我遇到了一个只有2个类和训练数据集矩阵大小的文档分类问题。我想知道当min_df必须是介于0和1之间的浮点值时,如何删除最不频繁的4个单词/特征。通过将min_df值修改为4,我甚至获得了良好的精度和F1结果;但是我无法解释到底发生了什么。我在6GB的机器上使用python-sklearn(scikit-learn)包。

都在文档中,但无论如何:

  • 如果min_df是介于0和1之间的浮点值,则将其解释为一个比例:所有频率低于文档中该比例的单词都将被忽略
  • 如果min_df是int,则将其解释为计数:所有出现频率低于此计数的单词都将被忽略

相关内容

  • 没有找到相关文章

最新更新