我正在尝试在一个稍大的数据集上构建一个随机森林 - 五十万行和 20K 列(密集矩阵(。
我尝试修改超参数,例如:
n_jobs = -1
或迭代最大深度。但是,它要么由于内存问题而停止(我有一台 320GB 的服务器(,要么准确性非常低(当我使用较低的max_depth时(
有没有办法让我仍然可以使用所有功能并构建模型,而不会出现任何内存问题或不会降低准确性?
在我看来(不确切知道您的案例和数据集(,您应该专注于从数据集中提取信息,特别是如果您有 20k 列。我认为其中一些不会给出太大的差异或将是多余的,因此您可以使您的数据集稍微小一点,并且对潜在的过度拟合更健壮。此外,您应该尝试使用一些降维方法,这将允许您缩小数据集,从而保留大部分方差。
PCA 的示例代码
PCA要点
例如PCA(如果您已经知道这种方法,则无意冒犯您(
常设仲裁法院维基