删除最常见的单词 木槌.



我从字符串列表中创建由令牌特征序列组成的实例列表。通过命令行,我可以根据计数、tf-idf 等修剪这些数据(https://github.com/mimno/Mallet/blob/master/src/cc/mallet/classify/tui/Vectors2Vectors.java(。但是,如果我想在 Java 中执行此操作怎么办?如何扩展我的代码?

我的目标是删除LDA主题建模中最常见的单词。

public static InstanceList createInstanceList(List<String> texts) {
    ArrayList<Pipe> pipes = new ArrayList<Pipe>();
    pipes.add(new CharSequence2TokenSequence());
    pipes.add(new TokenSequenceLowercase());
    pipes.add(new TokenSequenceRemoveStopwords());
    pipes.add(new TokenSequence2FeatureSequence());
    InstanceList instanceList = new InstanceList(new SerialPipes(pipes));
    instanceList.addThruPipe(new ArrayIterator(texts));
    return instanceList;
}

提前感谢您的帮助!

查看您链接到的代码以获取示例,从第 125 行开始。FeatureCountTool生成术语频率并记录频率信息。然后,您可以生成修剪后的字母表并构建新的实例列表,如 Vectors2Vectors 中所述,或者生成新的非索引字表Set并从源文件重新导入文档。

相关内容

  • 没有找到相关文章

最新更新