我正在使用Spark 1.5.0 MLlib随机森林算法(Scala代码)进行两类分类。由于我使用的数据集高度不平衡,因此多数类以 10% 的采样率向下采样。
是否可以在 Spark 随机森林训练中使用采样权重(在本例中为 10)?我在随机森林中trainClassifier()
的输入参数中没有看到权重。
在 Spark 1.5 中完全没有,在 Spark 1.6 中只有部分(逻辑/线性回归)
https://issues.apache.org/jira/browse/SPARK-7685
这是跟踪所有子任务的伞式JIRA
https://issues.apache.org/jira/browse/SPARK-9610