一些预编程模型会自动删除其回归输出中的线性因变量(例如lm()
) 在R
.使用bife
包,这似乎是不可能的。如第 5 页 CRAN 中的软件包描述中所述:
如果 bife 不收敛,这通常是一个或多个回归器之间线性依赖性的标志 和固定效果。在这种情况下,您应该仔细检查您的模型规格。
现在,假设手头的问题涉及做许多回归,并且无法充分检查每个回归输出 - 必须假设关于回归器的某种经验法则。有哪些替代方案可以或多或少地自动删除线性相关回归量并实现足够的模型规范?
我在下面设置了一个代码作为示例:
#sample coding
x=10*rnorm(40)
z=100*rnorm(40)
df1=data.frame(a=rep(c(0,1),times=20), x=x, y=x, z=z, ID=c(1:40), date=1, Region=rep(c(1,2, 3, 4),10))
df2=data.frame(a=c(rep(c(1,0),times=15),rep(c(0,1),times=5)), x=1.4*x+4, y=1.4*x+4, z=1.2*z+5, ID=c(1:40), date=2, Region=rep(c(1,2,3,4),10))
df3=rbind(df1,df2)
df3=rbind(df1,df2)
for(i in 1:4) {
x=df3[df3$Region==i,]
model = bife::bife(a ~ x + y + z | ID, data = x)
results=data.frame(Region=unique(df3$Region))
results$Model = results
if (i==1){
df4=df
next
}
df4=rbind(df4,df)
}
Error: Linear dependent terms detected!
由于您只查看线性依赖关系,因此您可以简单地利用检测它们的方法,例如lm
。
下面是包含包fixest
的解决方案示例:
library(bife)
library(fixest)
x = 10*rnorm(40)
z = 100*rnorm(40)
df1 = data.frame(a=rep(c(0,1),times=20), x=x, y=x, z=z, ID=c(1:40), date=1, Region=rep(c(1,2, 3, 4),10))
df2 = data.frame(a=c(rep(c(1,0),times=15),rep(c(0,1),times=5)), x=1.4*x+4, y=1.4*x+4, z=1.2*z+5, ID=c(1:40), date=2, Region=rep(c(1,2,3,4),10))
df3 = rbind(df1, df2)
vars = c("x", "y", "z")
res_all = list()
for(i in 1:4) {
x = df3[df3$Region == i, ]
coll_vars = feols(a ~ x + y + z | ID, x, notes = FALSE)$collin.var
new_fml = xpd(a ~ ..vars | ID, ..vars = setdiff(vars, coll_vars))
res_all[[i]] = bife::bife(new_fml, data = x)
}
# Display all results
for(i in 1:4) {
cat("n#n# Region: ", i, "n#nn")
print(summary(res_all[[i]]))
}
这里需要的函数是feols
和xpd
,两者来自fixest
。一些解释:
feols
,像lm
一样,当发现变量是共线时,会即时删除它们。它将共线变量的名称存储在插槽$collin.var
中(如果未找到,则NULL
)。与
lm
相反,feols
也允许固定效应,因此您可以在查找线性依赖关系时添加它:这样您就可以发现也涉及固定效应的复杂线性依赖关系。我已经设置了
notes = FALSE
否则feols
会提示一个提及共线性的注释。feols
速度很快(实际上比大型数据集的lm
更快),因此不会对您的分析造成压力。该函数
xpd
扩展公式,并将任何以两个点开头的变量名称替换为用户提供的关联参数。当
xpd
的参数是向量时,行为是用加号强制它们,所以如果提供..vars = c("x", "y")
,公式a ~ ..vars | ID
将变得a ~ x + y | ID
。在这里,它用
setdiff(vars, coll_vars))
替换公式中的..vars
,这是未发现共线的变量的向量。
因此,您可以在执行bife
估计之前获得一种具有自动变量删除功能的算法。
最后,只是一个附带评论:一般来说,最好将结果存储在列表中,因为它可以避免复制。
更新
我忘了,但是如果你不需要偏差校正(bife::bias_corr
),那么你可以直接使用自动删除共线变量的fixest::feglm
:
res_bife = bife::bife(a ~ x + z | ID, data = df3)
res_feglm = fixest::feglm(a ~ x + y + z | ID, df3, family = binomial)
rbind(coef(res_bife), coef(res_feglm))
#> x z
#> [1,] -0.02221848 0.03045968
#> [2,] -0.02221871 0.03045990