我有一个具有100万行的数据集。
在运行1个含500棵树的随机生存森林时,在R中包含Randomforestsrc,由于记忆问题,它需要大量时间。
所以,我可以在相同的数据上使用50棵树,每次都有不同的种子以及10个随机森林的结果(通过除以10(,以便我可以得到相似的相似之处结果是有500棵树?
是的,结果应该相似。随机森林只是决策树的集合。稍后再添加更多树是没有问题的,只要您使用10套50棵树的每一组数据和参数相同。另外,您可以查看随机森林算法的更有效版本,例如包装游侠,也可以做生存森林,IIRC。