我正试图在r4.8x大型计算机上运行H2O xgboost。但运行时间太长(15小时以上,而具有相同超参数网格大小的GBM需要4小时(。
知道XGBoost使用缓存优化,是否有任何特定的实例类型最适合H2O的XGBoost实现?
我的训练数据有28K行和150个二进制列。我正在进行网格搜索。
更改EC2实例并不一定会使其更快。你需要了解瓶颈在哪里。查看日志,了解GBM与XGBoost之间需要花费的时间。XGBoost是创建更深的树还是创建更多的树?这可能是因为两种算法之间的设置不同。检查所有超参数是否相似(尽可能接近(。
此外,XGBoost使用H2O JVM外部的内存。如H2O的XGBoost文档常见问题解答中所述,尝试添加-extramempercent 120
并降低H2O内存。