在R中的频率列表上创建主题模型

我一直在使用topicmodels包在R.中创建LDA模型

require(tm)
require(topicmodels)
textvector <- c("this is one sentence", "this is another one",
                         "a third sentence appears") 
                         #and more, read in through a file
dtm <- DocumentTermMatrix(Corpus(VectorSource(textvector)))
lda.model <- LDA(dtm, 5)

但格式接受文档的唯一方式是将文档作为实际的文本文档。我想知道是否有一种方法可以提供频率的地图

[word1: 4, word2: 9,  word3: 25, word5:3...]

这显然不是R中的"地图"，而是任何允许根据词频创建主题模型的数据结构（数据框架、表、向量列表）表示？

我需要这样做的原因是，主题模型不是在"文档"one_answers"单词"上创建的，而是在图像中创建类似的特征，并且长格式表示需要太多空间。

您不需要使用tm的调用来创建文档术语矩阵。只要"文档"在行中，组件"单词"在列中表示，就可以创建并发送自己的文档。然而，您不能简单地在表中提供频率计数，因为LDA依赖于知道哪些单词出现在哪些文档中！

相关内容

最新更新

热门标签：