为什么调查权重会改变 R 平方?

library(survival)
library(survminer)
library(dplyr)

ovarian=ovarian
ovarian$weighting = sample(1:100,26,replace=T)
fitWEIGHT <- coxph(Surv(futime, fustat) ~ age + rx,data=ovarian,weight=weighting)
fitNOWEIGHT <- coxph(Surv(futime, fustat) ~ age + rx,data=ovarian)

在上面的这个例子中，fitWEIGHT的R平方值等于1。但是，没有假样本权重的同一模型的 R 平方等于小于一半 (0.5)。为什么会这样？

这里的权重实际上是重复观察结果。您正在使用分布在基础数据集中的完全分布的随机样本ovarian$weighting = sample(1:100,26,replace=T)来计算权重。因此，根据正态分布权重重新观察每组数据点可能会使函数偏向，以确保因变量和自变量之间的完美相关性。它可能不是完全完全相关的，但 1：100 的范围可能会使其超出默认的有效位数，因此它四舍五入为 1。如果您将样本更改为 1：10 或 40：50 或其他值，它可能会继续推动相关偏差，但会将 r2 降低到接近 1，而不是您现在在当前加权策略下看到的四舍五入为 1 的值。

有关此函数权重的其他讨论，请参见下文。确保您指定的权重是此分析所需的权重类型。它实际上是对观测值计数进行加权(即，一种过度/重新采样您为其分配权重的观测值的形式)。https://www.rdocumentation.org/packages/survival/versions/2.43-3/topics/coxph

其中指出：

案例

权重案例权重被视为复制权重，即 2 的表壳重量相当于该主题的 2 份副本观察。当计算机像受试者一样分组要小得多时在一起是用来保存内存的常用技巧。全部设置例如，权重为 2 将给出相同的系数估计值，但将方差减半。当领带的埃夫隆近似值(默认值)为采用的数据复制不会给出完全相同的结果系数作为权重选项，在本例中为加权拟合可以说是正确的。
当模型包含聚类项或 robust=TRUE 选项时，计算方差将任何权重视为抽样权重;全部设置在这种情况下，权重为 2 将给出与权重 1 相同的方差。

相关内容

最新更新

热门标签：