逻辑回归-使用其他变量创建新变量(SAS)



我有一个基于调查的小数据集(大约80 obsv(&我想使用SAS对其进行逻辑回归。

我的调查包含一些变量(名为X1、X2、X3(,我想将它们重新组合为一个新创建的名为X4的变量的类别。

问题是这些变量X1-X3已经有类别(是/否/没有意见(

我如何将它们重新组合为X4的类别,但要考虑到它们的价值观?

帮助你理解我的问题:

Y(=1/0(=X1 X2 X3

X1-X3各有3个类别(是/否/无意见(

我想要的是 :

过程逻辑数据=有;型号Y=X4和其他,如年龄、城市。。。但是X4可以取3个值。

问题不在于在X1-X3的基础上创建X4,而在于如何影响X4 X1-X3各自的值?

(注意:我说X1-X3,但更多(

我在SAS做这件事,但即使是理论解释也会有帮助!

谢谢。

我认为注释在很大程度上是正确的——这可能对您的回归没有帮助。

但是——要回答如何做到这一点;通常你要做的是使用2(或3(的幂。

因此,对于典型的";是/否";如果你不关心第三个,你会分配这样的东西:

x4 = (x1) + (x2 * 2) + (x3 * 4);

那么这些值应该是这样的:

0 = (0,0,0)
1 = (1,0,0)
2 = (0,1,0)
3 = (1,1,0)
4 = (0,0,1)
5 = (1,0,1)
6 = (0,1,1)
7 = (1,1,1)

如果你真的想要";没有意见";作为一个类别(这很复杂,但在许多情况下,将"没有意见"的人包括在内并不理想,除非有一个意见实际上是相关的,最好将他们排除在外或估算价值(,那么你可以使用3的幂。它的工作方式与2的幂相同,只是有更多的类别组合(总共27个(。

x4 = (x1) + (x2 * 3) + (x3 * 9);

只要确保它们是0/1/2编码的,而不是1/2/3;如果它们是1/2/3,那么在乘法过程中减去一。


你还能做什么更好?你可以在理论上做一些优于实际分类的事情(这对你的过度拟合毫无帮助(。

一个有用的术语是";"塌陷";;例如,请参阅Bruce Lund等人的这篇论文(Plug:Bruce将在本月晚些时候为WUSS的回归中提供一个(非免费(类。您可以使用ANOVA来分析哪些变量对您的模型有贡献。您也可以使用一些其他过程,如GLMSELECT;这是一般回归中的一个主要主题。

你也可以看看因素分析,就像这本SAS书的节选。

最新更新