基于权重选择的词表和顶级特征的交互作用



在一个文本分类案例的训练过程中,process document模块生成的单词列表长度约为15000个单词。另一方面,我使用特征选择模块,即weight by information gainselect by weight来选择前500个特征。wordlist和所选权重都被存储。是否有任何方法将生成的500个权重应用到单词列表并构造与500个权重完全匹配的短单词列表?换句话说,我希望有原始词表(约15000个单词)和前500个特征(或基于前500个单词)的交集。

下面显示了我正在使用的脚本。存储的权重(用红色圈出)是两列,其中第一列是单词(属性),第二列是相应的权重值。在此基础上,我们可以选择500强或任何其他顶级特征。原始单词列表(用红色圈出)可以有15000个单词,一个15000行矩阵。

我的问题是如何根据排序的权重对象生成一个过滤的wordlist对象。

我已经在Rapidminer论坛上发布了这个问题。

您应该发布一个具有代表性的流程。如果没有这个,就很难提供帮助,但我的观点是,你可以把500个单词的示例集重新处理,从中生成一个单词列表。

最新更新