描述性分析与斜率估计线性模型R不匹配

我是一个菜鸟学生，在R中处理建模。

我正在尝试为我的数据集找到由 n 个重复行 x m 变量列组成的最佳模型：我想建立一个 lm 来解释 Y(连续数据)植物芽数/平方米中的 4 个分类回归量的影响。

公式模型为：lm(Y ~ a+b+c+d)。

回归器级别："a"具有 4 个级别(阴影百分比类)，"b"具有 4 个级别(4 个调查年)，"c"具有 3 个级别(高程类)，"d"具有 7 个级别(其中对芽进行采样的 7 个空间多边形)。

在描述性分析中，我观察到(使用箱线图)所有回归量水平的Y值强烈下降，特别是对于分类变量"a"：其水平称为"I"(100%轻)，"II"(60%)，"III"(30%)，"IV"(10%轻)，具有350,250,150 100 Y中值。

在汇总模型中，我可以观察到每个回归量级的 Y 值的预期影响，除了 "a"：该回归量的水平与 Y 的显著 pvalue 显示相反的关系。这意味着与I(包括在截距中)相比，II级的估计斜率值为+69，III级为+133，IV级为+150。

诊断图对于残差正态分布和方差均匀性是正常的。

所以我的问题是，这种影响是否有可能，或者我应该以不同的方式阅读摘要？

提前感谢您的帮助。

在这里，您可以看到模型中包含的每个因子水平的分布

摘要和诊断图

我将您的问题标记为要迁移到交叉验证，因为它实际上更像是一个统计问题。希望您在那里得到更详细的答案。

无论如何，不匹配的一个潜在原因是您的一个解释变量与另一个解释变量相关。这不会出现在您的诊断图中。相关变量"导致"您在汇总图中看到的密度降低。一旦你通过将其包含在回归中来消除这种效应，真正的效应就会以增加密度的形式显示出来

快速检查是运行一些解释变量之间的关联测试。或者，您可以逐步估计线性模型，添加一个接一个变量，以查看添加特定解释变量后阴影变量的符号是否发生变化。

相关内容