SAS企业指南，缺失变量的不同处理方法

我们正在使用ESS数据集，但不确定如何处理SAS Enterprise Guide中缺少值的问题。我们的因变量是"主观幸福感"，目的是包括大量的控制变量——因此，我们的情况是，我们有一个包含大量缺失值的数据集。

我们不想使用"列表删除"。相反，我们希望根据被调查者的回答，以不同的方式处理不同的信件："不回答"、"不适用"、"拒绝"one_answers"不知道"。例如，我们计划对不适用的内容进行成对删除，而我们可能希望使用例如其他一些回复的平均值，这取决于问题（假设受访者的回复提供了有关MCAR、MAR和NMAR的信息）。

我们的主要问题是：

目前，我们丢失的变量在数据集中以不同的方式标记（99、77、999、88等），在继续SAS Enterprise Guide之前，我们是否应该在Excel中替换这些值？如果是，我们应该如何最好地更换它们，因为它们应该以不同的方式对待
我们如何告诉SAS Enterprise Guide以不同的方式处理不同的任务
如果我们使用虚拟变量来标记拒绝，例如收入，我们如何在最终回归中包括这些

我们已经试着阅读了这方面的内容，但有点困惑，所以我们非常感谢任何帮助：）

在技术说明中，SAS提供了特殊的缺失值：.a.b.c等（不区分大小写）。替换SAS中的数值，例如99 =.a 77 = .b例如，决策树将能够将这些作为单独的值进行处理。

为了在回归模型中保留缺失观测值的信息，您必须进行某种权衡（找到对问题危害最小的解决方案）。

一个经典的解决方案是创建伪变量并替换缺少带平均值的值。包括假人和模型中的原始变量。可能的问题：系数会有偏见、多重共线性、类别/变量过多。
另一种方法是将变量分类。做它只是根据价值（例如十分位数），你可能会遭受信息损失。根据理论和你可能会遭受确认偏差。
更先进的方法是计算信息价值(http://support.sas.com/resources/papers/proceedings13/095-2013.pdf)你的自变量。从而替换所有值，包括缺席。当然，这将再次导致偏见和信息但至少这可能是识别有用/无用的缺失值。

相关内容

最新更新

热门标签：