我在一些相当大的训练数据集上运行scikit learn,大约有16亿行,大约有500个特征。平台是Ubuntu服务器14.04,硬件有100gb内存和20个CPU内核。
测试数据集大约是行数的一半。
我设置n_jobs = 10, am forestrongize = 3*number_of_features,所以大约有1700棵树。
如果我将特征数量减少到大约350个,它可以正常工作,但永远不会完成500+的完整特征集的训练阶段。该进程仍在执行,并使用了大约20gb的ram,但使用了0%的CPU。我也成功地完成了大约40万行的数据集,但两倍的特征只需要大约1小时就能完成。
我正在小心地删除任何不使用的数组/对象。
谁有我可以试试的主意?按照orgrisel的建议安装当前的主分支版本。我确实必须像这里描述的那样"make clean"。
新版本似乎是一个很大的改进。我希望它能尽快发布。
非常感谢orgisel和其他贡献者为这样一个伟大的软件!