R:将多行字符更改为单文档语料库



我正在阅读推文文件。每条推文都在自己的行上。当我使用 readLines() 时,结果是一个包含数千行的字符。

使用 tm 包给了我一个包含数千个文档的 VCorpus 对象,由此产生的 TermDocumentMatrix 是巨大的垃圾。

下面是一个示例:

x <- c("hello my name is bill","my favorite food is eating")
c <- Corpus(VectorSource(x))
inspect(c)

我可以遍历这些行并将它们粘贴在一起,但这似乎效率很低。

我找到的一个解决方案:

x <- c("hello my name is bill","my favorite food is eating")
c <- Corpus(VectorSource(concat(x,collapse=" ")))
inspect(c)

首先将推文作为一行阅读相比,似乎也不是非常有效。

最新更新