>有谁知道对 rfsrc 的标准调用执行了多少引导或子采样?
rf1<-rfsrc(Surv(time,status)~., data=myTable)
在上述设置中,对我来说被描述为"累积 OOB 错误率"rf1$err.rate
是一个长度为 1000 的向量,NA
999 个元素,只有最后一个元素是错误率(在 0 到 0.5 之间(。这是预期的行为吗?最后一个值是所有引导程序的平均误差吗?
更新:我找到了一个设置block.size
,它规定了 1000 个错误率中返回了多少个 OOB 错误率。如果将其设置为 10,则每隔一个 OOB 错误率就会被填充。豪尔 我仍然不确定的是计算了这些错误率中的每一个有多少个引导程序。每个错误率只是来自单个自举程序或子样本的一个错误率,还是以某种方式平均?
根据文档:
sampsize 函数,指定 by.root 在 by.root 时引导数据的大小 影响。对于没有更换的采样,它是要求的大小 样本,默认情况下是样本数量的 .632 倍。为 抽样用替换,就是样本量。也可以指定 通过使用数字。
因此,默认情况下,采样是在没有替换的情况下完成的,并且对森林中的每棵树随机采样了63.2%的观测值。