我有如下结构的数据(一个虚构的例子(:数据
有3个预测变量和1个响应变量。我们有5名学生的数据,每个学生在时间1、2、3内有3次观察。因此,观测总数为15。
但我不知道如何在这种纵向数据中分析X1、X2、X3对Y的影响。(我将使用python(
有人能告诉我一些想法吗?
谢谢。
由于您有纵向数据和连续响应,因此您有几个不同的选项:
- 忽略分组结构。我不建议你这样做,因为你可能忽略了信息
- 分别为小组建模。这通常不是一个好主意,在样本量较低的情况下当然也不是
- 将分组变量视为分类预测器。当组的数量很高时,这可能也不理想,即使最近的增强包很好地处理了具有高基数的分类预测因子(例如CatBoost(
- 使用混合效果模型
如果您想继续使用项目符号4,我建议您先看看Gaussian Process Boosting或GPBoost包。然而,还有其他Python包需要考虑:Statsmodels中的MERF和LMER。