在大型数据集上拟合随机森林模型 - 几百万行和几千列



我正在尝试在一个稍大的数据集上构建一个随机森林 - 五十万行和 20K 列(密集矩阵(。

我尝试修改超参数,例如:

n_jobs = -1或迭代最大深度。但是,它要么由于内存问题而停止(我有一台 320GB 的服务器(,要么准确性非常低(当我使用较低的max_depth时(

有没有办法让我仍然可以使用所有功能并构建模型,而不会出现任何内存问题或不会降低准确性?

在我看来(不确切知道您的案例和数据集(,您应该专注于从数据集中提取信息,特别是如果您有 20k 列。我认为其中一些不会给出太大的差异或将是多余的,因此您可以使您的数据集稍微小一点,并且对潜在的过度拟合更健壮。此外,您应该尝试使用一些降维方法,这将允许您缩小数据集,从而保留大部分方差。

PCA 的示例代码

PCA要点

例如PCA(如果您已经知道这种方法,则无意冒犯您(

常设仲裁法院维基

最新更新