小贝子编程

在大型数据集上拟合随机森林模型 - 几百万行和几千列

本文关键字：几千几百万数据集大型拟合随机模型森林 python-3.x scikit-learn random-forest
更新时间 : 2023-09-13
英文 : Fitting a random forest model on a large dataset - few million rows and few thousands columns

我正在尝试在一个稍大的数据集上构建一个随机森林 - 五十万行和 20K 列(密集矩阵(。

我尝试修改超参数，例如：

n_jobs = -1或迭代最大深度。但是，它要么由于内存问题而停止(我有一台 320GB 的服务器(，要么准确性非常低(当我使用较低的max_depth时(

有没有办法让我仍然可以使用所有功能并构建模型，而不会出现任何内存问题或不会降低准确性？

在我看来(不确切知道您的案例和数据集(，您应该专注于从数据集中提取信息，特别是如果您有 20k 列。我认为其中一些不会给出太大的差异或将是多余的，因此您可以使您的数据集稍微小一点，并且对潜在的过度拟合更健壮。此外，您应该尝试使用一些降维方法，这将允许您缩小数据集，从而保留大部分方差。

PCA 的示例代码

PCA要点

例如PCA(如果您已经知道这种方法，则无意冒犯您(

常设仲裁法院维基

相关内容