我生成了一个术语文档矩阵,现在我想根据单词列表在术语文档矩阵中选择术语。因此,我计划将术语文档矩阵与列表结合起来,删除不完整的行。
我只找到了组合两个术语文档矩阵的方法,但没有找到将术语文档矩阵与列表或矩阵组合的方法。如何做到这一点?
这是清单否定
V1
1 unpleasant
2 grief
3 sobs
4 sobbing
5 raging
6 mourn
如果有一个单词列表作为向量,则可以在创建文档术语矩阵时使用dictionary命令。
参见示例:
library(tm)
data("crude")
crude <- as.VCorpus(crude)
crude <- tm_map(crude, content_transformer(tolower))
crude <- tm_map(crude, removePunctuation)
crude <- tm_map(crude, removeNumbers)
crude <- tm_map(crude, removeWords, stopwords("smart"))
crude <- tm_map(crude, stripWhitespace)
crude <- tm_map(crude, stemDocument)
# List of words
low <- c("price", "oil", "barrel", "contract")
# restict dtm to list of words
dtm <- DocumentTermMatrix(crude, control=list(dictionary = lib))
head(inspect(dtm))
Terms
Docs barrel contract oil price
127 2 2 5 5
144 0 0 12 6
191 1 1 2 2
194 1 1 1 2
211 0 0 1 0
236 4 0 7 8