基于权重选择的词表和顶级特征的交互作用

在一个文本分类案例的训练过程中，process document模块生成的单词列表长度约为15000个单词。另一方面，我使用特征选择模块，即weight by information gain和select by weight来选择前500个特征。wordlist和所选权重都被存储。是否有任何方法将生成的500个权重应用到单词列表并构造与500个权重完全匹配的短单词列表?换句话说，我希望有原始词表(约15000个单词)和前500个特征(或基于前500个单词)的交集。

下面显示了我正在使用的脚本。存储的权重(用红色圈出)是两列，其中第一列是单词(属性)，第二列是相应的权重值。在此基础上，我们可以选择500强或任何其他顶级特征。原始单词列表(用红色圈出)可以有15000个单词，一个15000行矩阵。

我的问题是如何根据排序的权重对象生成一个过滤的wordlist对象。

我已经在Rapidminer论坛上发布了这个问题。

您应该发布一个具有代表性的流程。如果没有这个，就很难提供帮助，但我的观点是，你可以把500个单词的示例集重新处理，从中生成一个单词列表。

相关内容

最新更新

热门标签：