执行随机林时的最小观测次数

是否可以将RandomForests应用于非常小的数据集？我有一个包含许多变量的数据集，但每个变量只有25个观测值。随机森林产生合理的结果，OOB误差较低（10-25%）。关于要使用的最小观测次数，有什么经验法则吗？事实上，其中一个响应变量是不平衡的，如果我要对其进行二次采样，我最终会得到更少的观测值。提前感谢

绝对RF可以用于这些类型的数据集（即p>n）。事实上，他们在基因组学等领域使用RF，这些领域的字段数>=2000，并且只有非常少的行数，比如10-12行。整个问题是弄清楚20k个变量中的哪一个将构成简约标记（即特征选择是整个问题）。

我没有任何关于最小尺寸的ROT，除了如果你的模型在保留样本上不能很好地工作（或者在你的情况下，保留一次交叉验证可能很好），那么你应该尝试其他方法。

希望这能帮助

相关内容

最新更新

热门标签：