我从数据仓库中提取了一个非常大的数据集。将数据集下载到我想要运行lme4的框中需要很长时间。我想知道我是否可以将数据处理成协方差矩阵,下载该数据(小得多),并将其用作lme4的数据输入。我已经使用SAS为多元回归模型做了类似的事情,希望我能为lme4创建这种类型的输入。
谢谢。
我不知道有什么方法可以使用观测到的协方差矩阵来拟合lmer模型。但是,如果目标是减少数据集大小以加快分析速度,那么可能会有更简单的方法。例如,如果你不需要随机效应的条件模式,并且你有一个非常大的样本量,那么你可以尝试将模型拟合到越来越大的数据子集,直到固定效应的估计值和随机效应的协方差矩阵"稳定"为止。根据我的经验,这种方法效果很好,其他人也讨论过:
http://andrewgelman.com/2012/04/hierarchicalmultilevel-modeling-with-big-data/
这是另一个报价:
与"多重模型"相关这种方法是简单的近似,可以加快计算速度。计算机越来越快,但模型越来越复杂!因此,这些通用技巧可能仍然很重要。一个简单而通用的技巧是将数据分解为子集,并分别分析每个子集。例如,将85个县的氡数据随机划分为30、30和25个县的三组,并分别分析每组。"盖尔曼和希尔(2007),第547页。