我们正在使用ESS数据集,但不确定如何处理SAS Enterprise Guide中缺少值的问题。我们的因变量是"主观幸福感",目的是包括大量的控制变量——因此,我们的情况是,我们有一个包含大量缺失值的数据集。
我们不想使用"列表删除"。相反,我们希望根据被调查者的回答,以不同的方式处理不同的信件:"不回答"、"不适用"、"拒绝"one_answers"不知道"。例如,我们计划对不适用的内容进行成对删除,而我们可能希望使用例如其他一些回复的平均值,这取决于问题(假设受访者的回复提供了有关MCAR、MAR和NMAR的信息)。
我们的主要问题是:
- 目前,我们丢失的变量在数据集中以不同的方式标记(99、77、999、88等),在继续SAS Enterprise Guide之前,我们是否应该在Excel中替换这些值?如果是,我们应该如何最好地更换它们,因为它们应该以不同的方式对待
- 我们如何告诉SAS Enterprise Guide以不同的方式处理不同的任务
- 如果我们使用虚拟变量来标记拒绝,例如收入,我们如何在最终回归中包括这些
我们已经试着阅读了这方面的内容,但有点困惑,所以我们非常感谢任何帮助:)
在技术说明中,SAS提供了特殊的缺失值:.a.b.c等(不区分大小写)。替换SAS中的数值,例如99 =.a
77 = .b
例如,决策树将能够将这些作为单独的值进行处理。
为了在回归模型中保留缺失观测值的信息,您必须进行某种权衡(找到对问题危害最小的解决方案)。
-
一个经典的解决方案是创建伪变量并替换缺少带平均值的值。包括假人和模型中的原始变量。可能的问题:系数会有偏见、多重共线性、类别/变量过多。
-
另一种方法是将变量分类。做它只是根据价值(例如十分位数),你可能会遭受信息损失。根据理论和你可能会遭受确认偏差。
-
更先进的方法是计算信息价值(http://support.sas.com/resources/papers/proceedings13/095-2013.pdf)你的自变量。从而替换所有值,包括缺席。当然,这将再次导致偏见和信息但至少这可能是识别有用/无用的缺失值。