r语言 - 从 SparkR ML 分类函数中提取类概率 - r - Extracting Class Probabilities from SparkR ML Classification Functions 小贝子编程网

我想知道是否有可能（使用 SparkR 的内置功能或任何其他解决方法）提取 SparkR 中包含的一些分类算法的类概率。特别感兴趣的是。

spark.gbt（）
spark.mlp（）
spark.randomForest（）

目前，当我在这些模型上使用预测函数时，我能够提取预测，但不能提取实际概率或"置信度"。

我见过与这个主题类似的其他几个问题，但没有一个是特定于SparkR的，而且许多问题都没有在Spark的最新更新中得到解答。

我遇到了同样的问题，按照这个答案，现在使用 SparkR:::callJMethod 将概率DenseVector（R 无法反序列化）转换为Array（R 读取为 List）。它不是很优雅或快速，但它可以完成工作：

  denseVectorToArray <- function(dv) {
    SparkR:::callJMethod(dv, "toArray")
  }

例如：启动 Spark 会话

#library(SparkR)
#sparkR.session(master = "local")

生成玩具数据

data <- data.frame(clicked = base::sample(c(0,1),100,replace=TRUE),
                  someString = base::sample(c("this", "that"),
                                           100, replace=TRUE), 
                  stringsAsFactors=FALSE)
trainidxs <- base::sample(nrow(data), nrow(data)*0.7)
traindf <- as.DataFrame(data[trainidxs,])
testdf <- as.DataFrame(data[-trainidxs,])

训练随机森林并运行预测：

rf <- spark.randomForest(traindf, 
                        clicked~., 
                        type = "classification", 
                        maxDepth = 2, 
                        maxBins = 2,
                        numTrees = 100)
predictions <- predict(rf, testdf)

收集您的预测：

collected = SparkR::collect(predictions)

现在提取概率：

collected$probabilities <- lapply(collected$probability, function(x)  denseVectorToArray(x))     
str(probs)

当然，围绕SparkR:::callJMethod的函数包装器有点矫枉过正。您也可以直接使用它，例如使用 dplyr：

withprobs = collected %>%
            rowwise() %>%
            mutate("probabilities" = list(SparkR:::callJMethod(probability,"toArray"))) %>%
            mutate("prob0" = probabilities[[1]], "prob1" = probabilities[[2]])

r语言 - 从 SparkR ML 分类函数中提取类概率

相关内容

最新更新

热门标签：