在运行主题模型之前,我放置了n-gram,这样之后2-3块中的单词可以出现在我的主题模型中。
toks_data_ngrams <- tokens_ngrams(toks_data, n=2:3)
然而,在这之后,我的主题模型包含了很多单词,比如ab,苹果香蕉,happy_hand。
我怎么能忽略那些带下划线的单词?我不希望它们包含在我的主题模型中。ngrams有没有额外的代码,这样ngrams就不会捕捉到中间有下划线的单词?(我已经在预处理过程中删除了标点符号(。
非常感谢您提前提供的所有信息!
tokens_ngrams
有一个连接选项。默认情况下,此设置为_
。你可以指定任何你想要的东西,例如一个空格:
tokens_ngrams(toks_data, n= 2:3, concatenator = " ")
您可以使用排除它们
toks_data_ngrams <- toks_data_ngrams[!grepl("_", toks_data_ngrams)]
今后,在您的问题中始终包含可重复的示例