R-埃德加软件包|.txt文件的问题

谢谢您的输入。

我的问题是Edgar软件包的getSentimentCount(word.frq, words.list)函数。该函数应该读取一个.txt文件的word.list，并比较另一个现有列表(word.frq)的内容，也是.txt文件。

此功能正常，一个.txt文件在单词之间没有空格，但是R仍然可以读取文件，就像有（count> 1）一样。如果每个单词之后有一条新行，则可以读取另一个文件（计数> 1），但会导致getSentimentCount(word.frq, words.list)函数的错误。如果.txt文件被剥离了新行，并且所有单词都以一行（作为另一个文件），则r只能读取一个单词（基本上是一行中的所有单词），count =1。

是否有不同类型的.txt文件可以区分？

链接到两个.txt文件。negwords.txt有效，litwords.txt导致错误。

我感谢任何输入。

r在 nospace txt中仅读取一个单词的事实是正常的：就r而言，这只是一个没有任何分离器的字符串。

我没有任何阅读其他文档的问题：

library(edgar)
wf <- getWordfrquency("R/litwords_space.txt")
neg <- readLines("R/negwords.txt")
wgs <- getSentimentCount(word.frq = wf, words.list = neg)

目前，您的单词列表仅包含一次出现的单词，因此频率表将永远是一个。

如果您喜欢进行挖掘和情感分析，我强烈建议您切换到tidytext软件包。

colin

已解决：函数getSentimentCount(word.frq, words.list)仅读取.txt (MS-DOS)。

相关内容

最新更新

热门标签：