R tm stemCompletion generates NA value



当我尝试将stemComplete应用于语料库时,此函数会生成NA值。

这是我的代码:

my.corpus <- tm_map(my.corpus, removePunctuation) 
my.corpus <- tm_map(my.corpus, removeWords, stopwords("english")) 

(这样做的一个结果是:[[2584]]分区规划)

下一步是停滞语料库,因此:

my.corpus <- tm_map(my.corpus, stemDocument, language="english")
my.corpus <- tm_map(my.corpus, stemCompletion, dictionary=my.corpus_copy, type="first")

但结果是这样的

[[2584]]北美工厂

下一步应该是创建一个包含事务的发生率矩阵,然后是先验规则,但是如果我继续尝试获取规则,Inspect(规则)函数会给我这个错误:

> inspect(rules)
Errore in UseMethod("inspect", x) : 
no applicable method for 'inspect' applied to an object of class "c('rules','associations')"

问题出在哪里? 我想 NA 值不能正确生成发生率矩阵,然后生成良好的规则.. 这是问题所在吗? 如果是这样,我该如何解决?

这是问题的摘要:

this is an abstract:
my.words = c("β cell","zoning policy regional index brazil","zoning plan","zolpidem  adult","zizyphus spinosa hu")
my.corpus = Corpus(VectorSource(my.words))
my.corpus_copy = my.corpus
my.corpus = tm_map(my.corpus, removePunctuation)
my.corpus = tm_map(my.corpus, removeWords, c("the", stopwords("english"))) 
my.corpus = tm_map(my.corpus, stemDocument, language="english")
my.corpus <- tm_map(my.corpus, stemCompletion, dictionary=my.corpus_copy, type="first")
inspect(my.corpus)
此时

的stemCompletion()只是将原始语料库用作字典参数时词干过程的近似反转。使用 grep() 它在字典中搜索所有包含当前词干单词的单词,然后根据"类型"使用其中一个完成。

因此,在词干提取过程返回的单词不是非词干单词的子字符串的情况下,它会失败。例如,'c('delivery', 'zoning') 的词干是 c('deliveri', 'zone'),由 stemDocument() 中使用的 wordStem() 返回。但是,在这两种情况下,词干词都不是非词干词的正确子字符串。因此,stemCompletion() 找不到任何替换,并将返回 NA。

有许多替代方法可以克服这个问题,包括在从stemCompletion()返回后用词干词替换NA,或者更好地修改stemCompletion()函数本身。修改它以保留词干词而不是 NA 的一种简单方法是拥有自己的版本stemCompletion_modified():(替换...在 tm 包中使用来自 stemCompletion() 函数的原始代码)

stemCompletion_modified <- function (x, dictionary, type = ...) 
{
  ...
  #possibleCompletions <- lapply(x, function(w) grep(sprintf("^%s", w), dictionary, value = TRUE))
  possibleCompletions <- lapply(x, function(w) ifelse(identical(grep(sprintf("^%s", w), dictionary, value = TRUE),character(0)),w,grep(sprintf("^%s", w), dictionary, value = TRUE)))
  ...
} 

相关内容

最新更新