我是否应该将研究期视为r中多线性回归中的序数变量



我有一个响应变量,称为人均收入。它与预测变量,研究期有关。研究期是一个有3个级别的因素,其中第一个时期跨越了2008 - 2009年,第二个时期在2010 - 2012年至2013年第三阶段之间跨越。

我想通过这两个变量和其他变量(年龄和性别)在R中进行多个线性回归。简而言之,公式为人均收入〜学习期 年龄 性别。

我以两种方式进行了回归:

  1. 将研究期视为名义或非订单:

lm(PCI ~ factor(STUDY_PERIOD) + AGE + GENDER, data = df)

# Coefficients:
# (Intercept)  factor(STUDY_PERIOD)2  factor(STUDY_PERIOD)3   AGE      GENDERM  
# 356.07       63.15                 112.71                  -1.44     -43.73
  1. 将研究期视为有序或有序的:
df$STUDY_PERIOD <- ordered(df$STUDY_PERIOD, levels =c(1, 2, 3))  
lm(PCI ~ STUDY_PERIOD + AGE + GENDER, data = df)
    # Coefficients:
    # (Intercept)  STUDY_PERIOD.L  STUDY_PERIOD.Q  AGE    GENDERM  
    # 414.690      79.697          -5.551          -1.440   -43.728

均给出了研究期间不同的系数。

我的问题:

  1. 我应该将STUDY_PERIOD视为?
  2. 在两种情况下我如何解释系数?

谢谢!

这取决于您要问的问题。作为一个因素,您要求进行K-1斜率估算值,其中k =类别数。第一个估计对比度为1与周期2的对比,而第二个对比度为1与周期3的对比。

作为线性变量(不是序数),您要问:"随着时间段的增加,PCI会增加/减小。此处的斜率是每个周期的增加。

线性最容易解释,但可以掩盖实际效果是什么。但是,在这里,它可能是线性的,因为对因子的估计值(study_period)3大约是因子(studion_period)2的两倍。检查的一种方法是查看图。

最新更新