小贝子编程

样本权重是否可以用于 Spark MLlib 随机森林训练

本文关键字：随机 MLlib 森林 Spark 用于权重是否样本 scala apache-spark random-forest apache-spark-mllib
更新时间 : 2023-08-30
英文 : Can sample weight be used in Spark MLlib Random Forest training?

我正在使用Spark 1.5.0 MLlib随机森林算法（Scala代码）进行两类分类。由于我使用的数据集高度不平衡，因此多数类以 10% 的采样率向下采样。

是否可以在 Spark 随机森林训练中使用采样权重（在本例中为 10）？我在随机森林中trainClassifier()的输入参数中没有看到权重。

在 Spark 1.5 中完全没有，在 Spark 1.6 中只有部分（逻辑/线性回归）

https://issues.apache.org/jira/browse/SPARK-7685

这是跟踪所有子任务的伞式JIRA

https://issues.apache.org/jira/browse/SPARK-9610

最新更新