r语言 - 创建术语文档矩阵的Bi Grams



我正在对大型数据集进行文本挖掘。我能够创建TDM和DTM,并能够使用TDF执行我的分析;以色列国防军。但是我们可以为R中的Bi gram创建一个术语文档矩阵或者文档术语矩阵吗?我知道在Mahout中有类似的设施,但我正在寻找一种在R中做到这一点的方法?

以下代码为我工作:

BigramTokenizer <- function(x) {RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 2, max = 2))}
myTdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = BigramTokenizer))

最新更新