我有一个响应变量,称为人均收入。它与预测变量,研究期有关。研究期是一个有3个级别的因素,其中第一个时期跨越了2008 - 2009年,第二个时期在2010 - 2012年至2013年第三阶段之间跨越。
。我想通过这两个变量和其他变量(年龄和性别)在R中进行多个线性回归。简而言之,公式为人均收入〜学习期 年龄 性别。
我以两种方式进行了回归:
- 将研究期视为名义或非订单:
lm(PCI ~ factor(STUDY_PERIOD) + AGE + GENDER, data = df)
# Coefficients:
# (Intercept) factor(STUDY_PERIOD)2 factor(STUDY_PERIOD)3 AGE GENDERM
# 356.07 63.15 112.71 -1.44 -43.73
- 将研究期视为有序或有序的:
df$STUDY_PERIOD <- ordered(df$STUDY_PERIOD, levels =c(1, 2, 3)) lm(PCI ~ STUDY_PERIOD + AGE + GENDER, data = df)
# Coefficients:
# (Intercept) STUDY_PERIOD.L STUDY_PERIOD.Q AGE GENDERM
# 414.690 79.697 -5.551 -1.440 -43.728
均给出了研究期间不同的系数。
我的问题:
- 我应该将
STUDY_PERIOD
视为? - 在两种情况下我如何解释系数?
谢谢!
这取决于您要问的问题。作为一个因素,您要求进行K-1斜率估算值,其中k =类别数。第一个估计对比度为1与周期2的对比,而第二个对比度为1与周期3的对比。
作为线性变量(不是序数),您要问:"随着时间段的增加,PCI会增加/减小。此处的斜率是每个周期的增加。
线性最容易解释,但可以掩盖实际效果是什么。但是,在这里,它可能是线性的,因为对因子的估计值(study_period)3大约是因子(studion_period)2的两倍。检查的一种方法是查看图。