我正在阅读推文文件。每条推文都在自己的行上。当我使用 readLines() 时,结果是一个包含数千行的字符。
使用 tm 包给了我一个包含数千个文档的 VCorpus 对象,由此产生的 TermDocumentMatrix 是巨大的垃圾。
下面是一个示例:
x <- c("hello my name is bill","my favorite food is eating")
c <- Corpus(VectorSource(x))
inspect(c)
我可以遍历这些行并将它们粘贴在一起,但这似乎效率很低。
我找到的一个解决方案:
x <- c("hello my name is bill","my favorite food is eating")
c <- Corpus(VectorSource(concat(x,collapse=" ")))
inspect(c)
与首先将推文作为一行阅读相比,似乎也不是非常有效。