样本权重是否可以用于 Spark MLlib 随机森林训练



我正在使用Spark 1.5.0 MLlib随机森林算法(Scala代码)进行两类分类。由于我使用的数据集高度不平衡,因此多数类以 10% 的采样率向下采样。

是否可以在 Spark 随机森林训练中使用采样权重(在本例中为 10)?我在随机森林中trainClassifier()的输入参数中没有看到权重。

在 Spark 1.5 中完全没有,在 Spark 1.6 中只有部分(逻辑/线性回归)

https://issues.apache.org/jira/browse/SPARK-7685

这是跟踪所有子任务的伞式JIRA

https://issues.apache.org/jira/browse/SPARK-9610

最新更新