"Combine"语料库中单类文档的TF-IDF分数



假设我已经计算了一个文档语料库的TF-IDF分数,得到一个TF-IDF特征矩阵。如果这些文档的一个子集属于某个类别,我是否可以以某种方式"组合"该子集的分数,从而以有意义的方式获得该类中每个特征的单个值?

例如,如果我有一个包含1000个文档的语料库,并且corpus[0:200]属于a类,那么我可以取tf-idf分数的0-200行并以某种方式将它们组合起来,这样我就可以说,"在a类中,特征[3]的分数为0.5。"

我希望从语料库中的每个类中提取最有意义的术语。有什么合理的方法可以做到这一点吗?我的问题是否从一开始就表明了对这个概念的误解?任何反馈都是非常感谢的。

你所描述的就像是"feature selection"。在提取tf-idf分数之后,您的文档可能如下所示:

doc1: london:0.2 british:0.5 travel:0.1
doc2: coffee:0.2 brazil:0.1 travel:0.5
doc3: meat:0.8 avian 0.001 birds:0.2
doc4: agriculture:0.5 meat:0.5 chicken:0.01

假设doc1和doc2是类0:"城市",doc3和doc4是类1:"家禽"。然后可以计算项t和类c的期望mutual information

在这里查看如何执行基于互信息的特征选择的详细信息。

最新更新