我正在用Spark Ml中的随机森林进行多类预测。
对于SPARK ML中的此多类ClassificationEvaluator(),是否可以通过每个类标签获得精确/回忆?
目前,我只看到所有班级合并在一起的精度/召回。
直接使用org.apache.spark.mllib.evaluation.MulticlassMetrics
,然后获得可用的指标 -
// copied from spark git
val predictionAndLabels =
dataset.select(col($(predictionCol)), col($(labelCol)).cast(DoubleType)).rdd.map {
case Row(prediction: Double, label: Double) => (prediction, label)
}
val metrics = new MulticlassMetrics(predictionAndLabels)
查看类文档,使用内置方法似乎是不可能的。
尽管不完全是您想要的,但您可以在metricName
方法中使用weightedPrecision
和weightedRecall
。这至少会考虑班级失衡。