Scikit学习额外的分类器悬挂

我在一些相当大的训练数据集上运行scikit learn，大约有16亿行，大约有500个特征。平台是Ubuntu服务器14.04，硬件有100gb内存和20个CPU内核。

测试数据集大约是行数的一半。

我设置n_jobs = 10, am forestrongize = 3*number_of_features，所以大约有1700棵树。

如果我将特征数量减少到大约350个，它可以正常工作，但永远不会完成500+的完整特征集的训练阶段。该进程仍在执行，并使用了大约20gb的ram，但使用了0%的CPU。我也成功地完成了大约40万行的数据集，但两倍的特征只需要大约1小时就能完成。

我正在小心地删除任何不使用的数组/对象。

谁有我可以试试的主意?

按照orgrisel的建议安装当前的主分支版本。我确实必须像这里描述的那样"make clean"。

新版本似乎是一个很大的改进。我希望它能尽快发布。

非常感谢orgisel和其他贡献者为这样一个伟大的软件!

相关内容