r-反转特征缩放

在我的dataset中，我有一个二进制Target(0或1(变量，以及8个特征：nchar、rtc、Tmean、week_day、hour、ntags、nlinks和nex。week_day是一个因子，而其他因子是数字。我建立了一个决策树分类器，但我的问题涉及到特征缩放：

library(caTools)
set.seed(123)
split = sample.split(dataset$Target, SplitRatio = 0.75)
training_set = subset(dataset, split == TRUE)
test_set = subset(dataset, split == FALSE)
# Feature Scaling
training_set[-c(2,4)] = scale(training_set[-c(2,4)])
test_set[-c(2,4)] = scale(test_set[-c(2,4)])

模型返回Tmean=-0.057和ntags=2是两个分裂点。如何恢复这两个特征的原始值，即scale()执行重新缩放操作之前变量所假设的值。

如果使用scale缩放数据，则以下函数unscale可能有助于解决此问题
由于浮点精度的原因，原始矢量和未缩放的矢量是all.equal，而不是identical。

unscale <- function(x){
xbar <- attr(x, "scaled:center")
se <- attr(x, "scaled:scale")
if(is.null(xbar) & is.null(se)){
x
} else {
y <- t(se * t(x) + xbar)
attr(y, "scaled:center") <- NULL
attr(y, "scaled:scale") <- NULL
y
}
}
set.seed(2020)
A <- matrix(rnorm(120, sd = 16), ncol = 5)
s <- scale(A)
identical(A, unscale(s))  #FALSE
zeros <- as.vector(A - unscale(s))
all.equal(zeros, rep(0, 120))  
#[1] TRUE

该函数也适用于data.frames，但其输出的类是"matrix"，而不是原始的"data.frame"。这是scale输出的结果。

B <- as.data.frame(matrix(A, ncol = 5))
s2 <- scale(B)
B2 <- as.data.frame(unscale(s2))
all.equal(B, B2)
#[1] TRUE

但是，缩放/取消缩放具有dim属性的对象(如data.frame(的正确方法是逐个向量。例如，这可以通过lapply循环来完成。

s3 <- B
s3[] <- lapply(B, scale)
B3 <- s3
B3[] <- lapply(s3, unscale)
all(B - B3 < .Machine$double.eps^0.5)
#[1] TRUE

相关内容

最新更新

热门标签：