删除单词之间的下划线,使它们不会出现在 R 中的 n 元语法中



在运行主题模型之前,我放置了n-gram,这样之后2-3块中的单词可以出现在我的主题模型中。

toks_data_ngrams <- tokens_ngrams(toks_data, n=2:3)

然而,在这之后,我的主题模型包含了很多单词,比如ab,苹果香蕉,happy_hand。

我怎么能忽略那些带下划线的单词?我不希望它们包含在我的主题模型中。ngrams有没有额外的代码,这样ngrams就不会捕捉到中间有下划线的单词?(我已经在预处理过程中删除了标点符号(。

非常感谢您提前提供的所有信息!

tokens_ngrams有一个连接选项。默认情况下,此设置为_。你可以指定任何你想要的东西,例如一个空格:

tokens_ngrams(toks_data, n= 2:3, concatenator = " ")

您可以使用排除它们

toks_data_ngrams <- toks_data_ngrams[!grepl("_", toks_data_ngrams)]

今后,在您的问题中始终包含可重复的示例

最新更新