library(survival)
library(survminer)
library(dplyr)
ovarian=ovarian
ovarian$weighting = sample(1:100,26,replace=T)
fitWEIGHT <- coxph(Surv(futime, fustat) ~ age + rx,data=ovarian,weight=weighting)
fitNOWEIGHT <- coxph(Surv(futime, fustat) ~ age + rx,data=ovarian)
在上面的这个例子中,fitWEIGHT的R平方值等于1。但是,没有假样本权重的同一模型的 R 平方等于小于一半 (0.5)。为什么会这样?
这里的权重实际上是重复观察结果。 您正在使用分布在基础数据集中的完全分布的随机样本ovarian$weighting = sample(1:100,26,replace=T)
来计算权重。 因此,根据正态分布权重重新观察每组数据点可能会使函数偏向,以确保因变量和自变量之间的完美相关性。 它可能不是完全完全相关的,但 1:100 的范围可能会使其超出默认的有效位数,因此它四舍五入为 1。 如果您将样本更改为 1:10 或 40:50 或其他值,它可能会继续推动相关偏差,但会将 r2 降低到接近 1,而不是您现在在当前加权策略下看到的四舍五入为 1 的值。
有关此函数权重的其他讨论,请参见下文。 确保您指定的权重是此分析所需的权重类型。 它实际上是对观测值计数进行加权(即,一种过度/重新采样您为其分配权重的观测值的形式)。https://www.rdocumentation.org/packages/survival/versions/2.43-3/topics/coxph
其中指出:
案例权重 案例权重被视为复制权重,即 2 的表壳重量相当于该主题的 2 份副本 观察。当计算机像受试者一样分组要小得多时 在一起是用来保存内存的常用技巧。全部设置 例如,权重为 2 将给出相同的系数估计值,但 将方差减半。当领带的埃夫隆近似值(默认值)为 采用的数据复制不会给出完全相同的结果 系数作为权重选项,在本例中为加权拟合 可以说是正确的。
当模型包含聚类项或 robust=TRUE 选项时, 计算方差将任何权重视为抽样权重;全部设置 在这种情况下,权重为 2 将给出与权重 1 相同的方差。