RandomCutForest超参数值限制在Sagemaker中太小



我试图在Sagemaker中使用RandomCutForest,数据如下:

  • 行数:420000
  • 特征尺寸:30

问题是RandomCutForest超参数有以下限制(https://docs.aws.amazon.com/sagemaker/latest/dg/rcf_hyperparameters.html)。

  • num_samples_per_tree: min: 1, max: 2048
  • num_trees: min: 50, max: 1000

我认为RandomCutForest不适合上面描述的大型数据集,因为超参数的限制。即使您为这些超参数设置了最大值,与420,000行数据相比,2048 num_samples_per_tree也太小了。

我想知道为什么Sagemaker的RandomCutForest有这样的限制(由于性能问题,硬件能力或任何其他原因?),即使sklearn中的IsolationForest没有这样的限制。https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html

如果有任何解决这个问题的方法,请告诉我。

选择num_samples_per_tree的最优值取决于您的应用程序和数据集。该参数与数据集中异常的预期密度有关。具体来说,您应该选择num_samples_per_tree,使1/num_samples_per_tree大致近似于数据中异常数据点的比例。举个例子来说明这一点,如果在每棵树中使用10个样本,那么您应该期望您的数据集在1/10的时间内包含异常。请注意,在大多数应用中,该参数的最小值和最大值所涵盖的范围应该足以产生该算法的最佳性能。

最新更新