Scikit学习额外的分类器悬挂



我在一些相当大的训练数据集上运行scikit learn,大约有16亿行,大约有500个特征。平台是Ubuntu服务器14.04,硬件有100gb内存和20个CPU内核。

测试数据集大约是行数的一半。

我设置n_jobs = 10, am forestrongize = 3*number_of_features,所以大约有1700棵树。

如果我将特征数量减少到大约350个,它可以正常工作,但永远不会完成500+的完整特征集的训练阶段。该进程仍在执行,并使用了大约20gb的ram,但使用了0%的CPU。我也成功地完成了大约40万行的数据集,但两倍的特征只需要大约1小时就能完成。

我正在小心地删除任何不使用的数组/对象。

谁有我可以试试的主意?

按照orgrisel的建议安装当前的主分支版本。我确实必须像这里描述的那样"make clean"。

新版本似乎是一个很大的改进。我希望它能尽快发布。

非常感谢orgisel和其他贡献者为这样一个伟大的软件!

相关内容

  • 没有找到相关文章

最新更新