我是一个菜鸟学生,在R中处理建模。
我正在尝试为我的数据集找到由 n 个重复行 x m 变量列组成的最佳模型:我想建立一个 lm 来解释 Y(连续数据)植物芽数/平方米中的 4 个分类回归量的影响。
公式模型为:lm(Y ~ a+b+c+d)。
回归器级别:"a"具有 4 个级别(阴影百分比类),"b"具有 4 个级别(4 个调查年),"c"具有 3 个级别(高程类),"d"具有 7 个级别(其中对芽进行采样的 7 个空间多边形)。
在描述性分析中,我观察到(使用箱线图)所有回归量水平的Y值强烈下降,特别是对于分类变量"a":其水平称为"I"(100%轻),"II"(60%),"III"(30%),"IV"(10%轻),具有350,250,150 100 Y中值。
在汇总模型中,我可以观察到每个回归量级的 Y 值的预期影响,除了 "a":该回归量的水平与 Y 的显著 pvalue 显示相反的关系。这意味着与I(包括在截距中)相比,II级的估计斜率值为+69,III级为+133,IV级为+150。
诊断图对于残差正态分布和方差均匀性是正常的。
所以我的问题是,这种影响是否有可能,或者我应该以不同的方式阅读摘要?
提前感谢您的帮助。
在这里,您可以看到模型中包含的每个因子水平的分布
摘要和诊断图
我将您的问题标记为要迁移到交叉验证,因为它实际上更像是一个统计问题。希望您在那里得到更详细的答案。
无论如何,不匹配的一个潜在原因是您的一个解释变量与另一个解释变量相关。这不会出现在您的诊断图中。相关变量"导致"您在汇总图中看到的密度降低。一旦你通过将其包含在回归中来消除这种效应,真正的效应就会以增加密度的形式显示出来
快速检查是运行一些解释变量之间的关联测试。或者,您可以逐步估计线性模型,添加一个接一个变量,以查看添加特定解释变量后阴影变量的符号是否发生变化。