R 的 MLR 中的预测函数产生的结果与预测不一致



我正在使用mlr包的框架来构建svm模型来预测图像中的土地覆盖类别。我使用栅格包的预测函数,并将栅格转换为数据框,然后使用"学习器"在该数据框上进行预测。模型"作为输入。这些方法给了我真实的结果。

工作:

> predict(raster, mod$learner.model)

> xy <- as.data.frame(raster, xy = T)
> C <- predict(mod$learner.model, xy)

但是,如果我在没有指定学习器的情况下预测从栅格导出的数据帧。模型,结果不一样。

> C2 <- predict(mod, newdata=xy)

C2$data$响应与c不相同,为什么?


下面是一个可重复的例子来说明这个问题:

> library(mlr)
 > library(kernlab)
 > x1 <- rnorm(50)
 > x2 <- rnorm(50, 3)
 > x3 <- rnorm(50, -20, 3)
 > C <- sample(c("a","b","c"), 50, T)
 > d <-  data.frame(x1, x2, x3, C)
 > classif <- makeClassifTask(id = "example", data = d, target = "C")
 > lrn <- makeLearner("classif.ksvm", predict.type = "prob", fix.factors.prediction = T)
 > t <- train(lrn, classif)
 Using automatic sigma estimation (sigest) for RBF or laplace kernel
 > res1 <- predict(t, newdata = data.frame(x2,x1,x3))
 > res1
 Prediction: 50 observations
 predict.type: prob
 threshold: a=0.33,b=0.33,c=0.33
 time: 0.01
      prob.a    prob.b    prob.c response
 1 0.2110131 0.3817773 0.4072095        c
 2 0.1551583 0.4066868 0.4381549        c
 3 0.4305353 0.3092737 0.2601910        a
 4 0.2160050 0.4142465 0.3697485        b
 5 0.1852491 0.3789849 0.4357659        c
 6 0.5879579 0.2269832 0.1850589        a
 > res2 <- predict(t$learner.model, data.frame(x2,x1,x3))
 > res2
  [1] c c a b c a b a c c b c b a c b c a a b c b c c a b b b a a b a c b a c c c
 [39] c a a b c b b b b a b b
 Levels: a b c
!> res1$data$response == res2
  [1]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE FALSE
 [13]  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE
 [25]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE
 [37]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
 [49]  TRUE FALSE

预测并不相同。在mlr关于预测的教程页面上,我看不出为什么结果会有所不同。谢谢你的帮助。

,

更新:当我对随机森林模型做同样的处理时,这两个向量是相等的。这是因为支持向量机是规模相关的而随机森林不是吗?

 > library(randomForest)
 > classif <- makeClassifTask(id = "example", data = d, target = "C")
 > lrn <- makeLearner("classif.randomForest", predict.type = "prob", fix.factors.prediction = T)
 > t <- train(lrn, classif)
 >
 > res1 <- predict(t, newdata = data.frame(x2,x1,x3))
 > res1
 Prediction: 50 observations
 predict.type: prob
 threshold: a=0.33,b=0.33,c=0.33
 time: 0.00
   prob.a prob.b prob.c response
 1  0.654  0.228  0.118        a
 2  0.742  0.090  0.168        a
 3  0.152  0.094  0.754        c
 4  0.092  0.832  0.076        b
 5  0.748  0.100  0.152        a
 6  0.680  0.098  0.222        a
 >
 > res2 <- predict(t$learner.model, data.frame(x2,x1,x3))
 > res2
  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
  a  a  c  b  a  a  a  c  a  b  b  b  b  c  c  a  b  b  a  c  b  a  c  c  b  c
 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
  a  a  b  a  c  c  c  b  c  b  c  a  b  c  c  b  c  b  c  a  c  c  b  b
 Levels: a b c
 >
 > res1$data$response == res2
  [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [16] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [31] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
 [46] TRUE TRUE TRUE TRUE TRUE

,

另一个更新:如果我改变预测。从"prob"输入到"response",两个SVM预测向量一致。我将研究这些类型的差异,我认为"prob"给出了相同的结果,但也给出了概率。也许事实并非如此?

正如您所发现的,"错误"的来源是mlrkernlab对预测类型具有不同的默认值。

mlr保持相当多的内部"状态",并检查每个学习器的参数,以及如何处理训练和测试。你可以用lrn$predict.type得到学习器将做出的预测类型,在你的例子中它给出了"prob"。如果你想知道所有血腥的细节,看看classif.ksvm的实现。

不建议像在示例中那样混合使用mlr包装的学习器和"原始"学习器,也没有必要这样做。如果你把它们混在一起,像你发现的事情就会发生——所以当使用mlr时,只使用 mlr结构来训练模型,做出预测,等等。

mlr确实有测试来确保"原始"和包装学习器产生相同的输出,例如参见classif.ksvm

答案就在这里:

为什么ksvm在R中的概率和响应不一致?

简而言之,ksvm type = " probability "与type = "response"给出的结果是不同的。

如果我运行

 > res2 <- predict(t$learner.model, data.frame(x2,x1,x3), type = "probabilities")
 > res2

然后我得到与上面的res1相同的结果(type = "response"是默认值)。

不幸的是,似乎基于概率对图像进行分类不如使用"响应"。也许这仍然是估计分类确定性的最好方法?

相关内容

  • 没有找到相关文章

最新更新