小贝子编程

删除单词之间的下划线，使它们不会出现在 R 中的 n 元语法中

在运行主题模型之前，我放置了n-gram，这样之后2-3块中的单词可以出现在我的主题模型中。

toks_data_ngrams <- tokens_ngrams(toks_data, n=2:3)

然而，在这之后，我的主题模型包含了很多单词，比如ab，苹果香蕉，happy_hand。

我怎么能忽略那些带下划线的单词？我不希望它们包含在我的主题模型中。ngrams有没有额外的代码，这样ngrams就不会捕捉到中间有下划线的单词？(我已经在预处理过程中删除了标点符号(。

非常感谢您提前提供的所有信息！

tokens_ngrams有一个连接选项。默认情况下，此设置为_。你可以指定任何你想要的东西，例如一个空格：

tokens_ngrams(toks_data, n= 2:3, concatenator = " ")

您可以使用排除它们

toks_data_ngrams <- toks_data_ngrams[!grepl("_", toks_data_ngrams)]

今后，在您的问题中始终包含可重复的示例

相关内容