带插入符号的预处理数据输入返回的观测值比预期的要少



我想知道为什么预处理函数从R的插入符号包用于数据集的缺失值的imputation返回少于原始数据集的观测值?
例如:

library(caret)
t <- data.frame(seq_len(100000),seq_len(100000))
for (i in 1:100000) 
{
if (i %% 10 == 0) t[i,1] <- NA; 
if (i %% 100 == 0) t[i,2] <- NA 
}
preProcValues <- preProcess(t, method = c("knnImpute"))

preProcValues将只包含2个变量的90000个观察值,而预期是100000个。

来自文档:

函数preProcess估计每个参数所需的参数操作和predict.preProcess用于将它们应用于特定的数据集。

这里,preProcValues不是t,它包含了用predict.preProcesst进行imputation所需的参数。


你应该期望在preProcValues中观察到100K

提示:查看源代码,看看NA

是怎么回事

使用您的示例(修改为使用method = "medianImpute" -请参阅此问题(以及上述源代码),了解为什么您试图做的事情不会与"knnImpute"一起工作)

preProcValues <- preProcess(t, method = "medianImpute") 
> preProcValues$dim[1]
#[1] 90000

这里我们将t中的NA值替换为中位数(50K)

t2 <- predict(preProcValues, t)
> dim(t2)[1]
#[1] 100000

preProcess不返回值,它只是根据提供的数据建立整个预处理模型。因此,您需要运行predict(也需要RANN包),但即使您对人工数据这样做,您也会得到一个错误:

Error in FUN(newX[, i], ...) : cannot impute when all predictors are missing in the new data point

作为k-nn imputation不能在你的预测因子都是NA的行中工作。

下面是一个只有20行的演示,为了清晰和方便检查:

library(caret)
t <- data.frame(seq_len(20),seq_len(20))
for (i in 1:20) 
{
  if (i %% 3 == 0) t[i,1] <- NA; 
  if (i %% 7 == 0) t[i,2] <- NA 
}
names(t) <- c('V1', 'V2')
preProcValues <- preProcess(t, method = c("knnImpute"))
library(RANN)
t_imp <- predict(preProcValues, t)

查看结果时,请记住方法"center", "scale"已被自动添加到您的预处理中,即使您没有显式地调用它们:

> str(preProcValues)
List of 19
$ call      : language preProcess.default(x = t, method = c("knnImpute"))
$ dim       : int [1:2] 12 2
$ bc        : NULL
$ yj        : NULL
$ et        : NULL
$ mean      : Named num [1:2] 10.5 10.5
 ..- attr(*, "names")= chr [1:2] "V1" "V2"
$ std       : Named num [1:2] 6.25 6.14
 ..- attr(*, "names")= chr [1:2] "V1" "V2"
$ ranges    : NULL
$ rotation  : NULL
$ method    : chr [1:3] "knnImpute" "scale" "center"
$ thresh    : num 0.95
$ pcaComp   : NULL
$ numComp   : NULL
$ ica       : NULL
$ k         : num 5
$ knnSummary:function (x, ...)  
$ bagImp    : NULL
$ median    : NULL
$ data      : num [1:12, 1:2] -1.434 -1.283 -0.981 -0.83 -0.377 ...
 ..- attr(*, "dimnames")=List of 2
 .. ..$ : chr [1:12] "1" "2" "4" "5" ...
 .. ..$ : chr [1:2] "V1" "V2"
 ..- attr(*, "scaled:center")= Named num [1:2] 10.5 10.5
 .. ..- attr(*, "names")= chr [1:2] "V1" "V2"
 ..- attr(*, "scaled:scale")= Named num [1:2] 6.63 6.63
 .. ..- attr(*, "names")= chr [1:2] "V1" "V2"
- attr(*, "class")= chr "preProcess"

最新更新