如何计算R中的KNN变量重要性



我实施了一个作者归因项目,在该项目中,我能够使用KNN使用两位作者的文章来训练我的KNN模型。然后,我把一篇新文章的作者分为a作者或B作者。我使用knn()函数来生成模型。该模型的输出如下表所示。

Word1 Word2 Word3  Author
11    1     48    8      A
2     2     0     0      B
29    1     45    9      A
1     2     0     0      B
4     0     0     0      B
28    3     1     1      B

从模型中可以明显看出,Word2和Word3是导致作者A和作者B之间分类的最重要变量。

我的问题是如何使用R.来识别这一点

基本上,您的问题可以归结为有一些变量(示例中的Word1、Word2和Word3)和一个二元结果(示例中为Author),并想知道不同变量在确定结果时的重要性。一种自然的方法是训练回归模型,使用变量预测结果,并检查该模型中变量的重要性。我将在这里包括两种方法(逻辑回归和随机森林),但也可以使用许多其他方法。

让我们从一个稍大的例子开始,其中结果只取决于Word2和Word3,而Word2的效果比Word3大得多:

set.seed(144)
dat <- data.frame(Word1=rnorm(10000), Word2=rnorm(10000), Word3=rnorm(10000))
dat$Author <- ifelse(runif(10000) < 1/(1+exp(-10*dat$Word2+dat$Word3)), "A", "B")

我们可以使用逻辑回归模型的总结来预测作者来确定最重要的变量:

summary(glm(I(Author=="A")~., data=dat, family="binomial"))
# [snip]
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)    
# (Intercept)  0.05117    0.04935   1.037    0.300    
# Word1       -0.02123    0.04926  -0.431    0.666    
# Word2        9.52679    0.26895  35.422   <2e-16 ***
# Word3       -0.97022    0.05629 -17.236   <2e-16 ***

从p值可以看出,Word2具有较大的正效应,Word3具有较大的负效应。从系数中我们可以看出,Word2对结果的影响更大(因为通过构造,我们知道所有变量都在同一尺度上)。

我们可以使用来自随机森林的变量重要性来预测作者的结果,类似地:

library(randomForest)
rf <- randomForest(as.factor(Author)~., data=dat)
rf$importance
#       MeanDecreaseGini
# Word1         294.9039
# Word2        4353.2107
# Word3         351.3268

我们可以认为Word2是迄今为止最重要的变量。这告诉我们其他一些有趣的事情——假设我们知道Word2,在预测结果方面,Word3实际上并不比Word1有用多少(而Word1不应该太有用,因为它不用于计算结果)。

最新更新