如何在回归分析中区分分类变量和顺序变量



我正在对房屋相关数据进行线性回归分析。目前我有23个功能。其中一些明显是有序的(例如年份、房间数量、楼层)。有些特征是分类的,当编码为数字格式时,我对如何处理它们感到困惑。我对使用哪种编码方法犹豫不决:一种热编码(用于分类)还是仅使用序数映射(用于序数数据)。我知道,颜色、性别、地区、国籍等分类特征必须使用伪编码进行编码。此外,很明显,条件等可能值为"旧"、"翻新"、"新"的分类特征可以分别排序和编码为1、2、3

但我不确定如何对不太明显的特征进行编码。这种特征的性质并不是立即明显的,在某种程度上可以同时归因于有序数据和分类数据。让我们看看这个例子:

Strongly Agree 
Agree 
Undecided 
Disagree 
Strongly Disagree 

这是毋庸置疑的:https://stats.stackexchange.com/questions/58818/can-ordinal-variables-be-used-as-predictor-for-linear-multiple-regression-analys

作者决定对它们进行普通编码。有些人建议使用伪编码。不清楚
另一个例子(材料):

Plastic
Wood    
Metal
Armored 

从我的角度来看,这些数据可以按顺序排列和编码为1,2,3,4。简单装甲比金属更贵。金属比木材更贵等等。但我在youtube上看到一个讲座,据说不要仅仅因为你看到一些上升或下降的模式就对特征进行普通编码。这些模式可能是虚幻的和虚假的。

另一个例子(互联网连接类型):

DSL
ADSL
SDSL
Cable
Broadband

其中有些速度更快,有些速度比其他人慢,但没有"明确的顺序"。如何处理这种"不明确"的分类数据。

如何区分分类数据和有序数据?或者,我只需要对非常普通的有序变量(如"条件")进行普通编码,并将其余不清楚的变量作为分类变量和伪编码。

我想说的是,序数变量是可以排序的,并且在值集之外的答案仍然有意义。一个很好的例子是"同意"/"不同意"。你可以将它们映射到值1-5,即使你得到2.3,你也知道这意味着什么:这比"同意"多一点。但这与"塑料"/"木材"完全没有意义——这是绝对的。关于互联网连接类型。这取决于情况。如果我们谈论的是速度,并且你可以对这些连接进行排序,那么将其视为序数可能是有意义的。但是,如果我们谈论的是例如现代类型的流行,那么它只是一个分类变量

在决定要对分类变量执行的编码类型时,不要将分类变量视为独立于其他变量的东西,这在一开始可能看起来很明显,但我们可能会陷入潜意识。我之所以这么说,是因为当你决定要执行的编码类型时,如果你只根据变量来决定,那么你可能会陷入你提到的dilemna,两种类型的编码似乎都足够逻辑,可以执行。例如,只需查看变量中存在的不同类别-塑料木材
金属铠装根据不同的视角,这两种类型的编码似乎都是合乎逻辑的。

但是,如果你开始将其他变量与主要目标一起考虑,你将能够更有效地根据最终目标决定应该使用哪种类型的编码。

因此,对于上面的例子,如果你的最终目标是预测材料的质量,那么顺序编码是有意义的,因为你的结束目标需要某种描述质量的顺序。

但是,如果上面例子的最终目标只是预测特定设备所用的某些材料,那么在这种情况下,名义编码是有意义的,因为顺序在这里并不重要。

所以你看到了两个编码决策是如何基于最终目标的吗?!因此,这个决定是基于END目标,而不是将变量视为独立于其他因素的东西。

最新更新