我是否应该将研究期视为r中多线性回归中的序数变量

我有一个响应变量，称为人均收入。它与预测变量，研究期有关。研究期是一个有3个级别的因素，其中第一个时期跨越了2008 - 2009年，第二个时期在2010 - 2012年至2013年第三阶段之间跨越。

。

我想通过这两个变量和其他变量（年龄和性别）在R中进行多个线性回归。简而言之，公式为人均收入〜学习期年龄性别。

我以两种方式进行了回归：

将研究期视为名义或非订单：

lm(PCI ~ factor(STUDY_PERIOD) + AGE + GENDER, data = df)

# Coefficients:
# (Intercept)  factor(STUDY_PERIOD)2  factor(STUDY_PERIOD)3   AGE      GENDERM  
# 356.07       63.15                 112.71                  -1.44     -43.73

将研究期视为有序或有序的：

df$STUDY_PERIOD <- ordered(df$STUDY_PERIOD, levels =c(1, 2, 3))  
lm(PCI ~ STUDY_PERIOD + AGE + GENDER, data = df)

    # Coefficients:
    # (Intercept)  STUDY_PERIOD.L  STUDY_PERIOD.Q  AGE    GENDERM  
    # 414.690      79.697          -5.551          -1.440   -43.728

均给出了研究期间不同的系数。

我的问题：

我应该将STUDY_PERIOD视为？
在两种情况下我如何解释系数？

谢谢！

这取决于您要问的问题。作为一个因素，您要求进行K-1斜率估算值，其中k =类别数。第一个估计对比度为1与周期2的对比，而第二个对比度为1与周期3的对比。

作为线性变量（不是序数），您要问："随着时间段的增加，PCI会增加/减小。此处的斜率是每个周期的增加。

线性最容易解释，但可以掩盖实际效果是什么。但是，在这里，它可能是线性的，因为对因子的估计值（study_period）3大约是因子（studion_period）2的两倍。检查的一种方法是查看图。

相关内容

最新更新

热门标签：