使用R-TM读取文档,与R-Maltlet一起使用



我有此代码可以与mallet的R包装拟合主题模型:

docs <- mallet.import(DF$document, DF$text, stop_words)
mallet_model <- MalletLDA(num.topics = 4)
mallet_model$loadDocuments(docs)
mallet_model$train(100)

我已经使用了TM软件包读取我的文档,该文档是目录中的TXT文件:

myCorpus <- Corpus(DirSource("data")) # a directory of txt files

不能将语料库用作mallet.import的输入,那么我如何从上面的TM COPUS myCorpusDF来调用?

rmallet旨在是独立包装,因此与TM集成并不是很好。RMALLET输入的需求是一个数据框,每个文档中有一个行,以及一个包含文本的字符字段,其期望已经被标记了。

您可以使用整洁的数据原理来处理您的文本并准备好输入槌中,如下所述,每行。

另外,在tidyText中还有用于槌槌包的图片,您可以使用它们来分析槌锤主题建模的输出:

# word-topic pairs
tidy(mallet_model)
# document-topic pairs
tidy(mallet_model, matrix = "gamma")
# column needs to be named "term" for "augment"
term_counts <- rename(word_counts, term = word)
augment(mallet_model, term_counts)

相关内容

  • 没有找到相关文章

最新更新