描述性分析与斜率估计线性模型R不匹配



我是一个菜鸟学生,在R中处理建模。

我正在尝试为我的数据集找到由 n 个重复行 x m 变量列组成的最佳模型:我想建立一个 lm 来解释 Y(连续数据)植物芽数/平方米中的 4 个分类回归量的影响。

公式模型为:lm(Y ~ a+b+c+d)。

回归器级别:"a"具有 4 个级别(阴影百分比类),"b"具有 4 个级别(4 个调查年),"c"具有 3 个级别(高程类),"d"具有 7 个级别(其中对芽进行采样的 7 个空间多边形)。

在描述性分析中,我观察到(使用箱线图)所有回归量水平的Y值强烈下降,特别是对于分类变量"a":其水平称为"I"(100%轻),"II"(60%),"III"(30%),"IV"(10%轻),具有350,250,150 100 Y中值。

在汇总模型中,我可以观察到每个回归量级的 Y 值的预期影响,除了 "a":该回归量的水平与 Y 的显著 pvalue 显示相反的关系。这意味着与I(包括在截距中)相比,II级的估计斜率值为+69,III级为+133,IV级为+150。

诊断图对于残差正态分布和方差均匀性是正常的。

所以我的问题是,这种影响是否有可能,或者我应该以不同的方式阅读摘要?

提前感谢您的帮助。

在这里,您可以看到模型中包含的每个因子水平的分布

摘要和诊断图

我将您的问题标记为要迁移到交叉验证,因为它实际上更像是一个统计问题。希望您在那里得到更详细的答案。

无论如何,不匹配的一个潜在原因是您的一个解释变量与另一个解释变量相关。这不会出现在您的诊断图中。相关变量"导致"您在汇总图中看到的密度降低。一旦你通过将其包含在回归中来消除这种效应,真正的效应就会以增加密度的形式显示出来

快速检查是运行一些解释变量之间的关联测试。或者,您可以逐步估计线性模型,添加一个接一个变量,以查看添加特定解释变量后阴影变量的符号是否发生变化。

相关内容

  • 没有找到相关文章

最新更新