正确执行功能选择，PCA和归一化顺序

我知道该功能选择可以帮助我删除贡献可能较低的功能。我知道PCA有助于将可能相关的功能降低为一个，从而降低尺寸。我知道归一化将特征转化为相同的比例。

但是是否有建议的命令可以执行这三个步骤？从逻辑上讲，我认为我应该首先选择功能选择不良功能，然后将其标准化，最后使用PCA降低尺寸并使功能彼此独立。

此逻辑正确吗？

奖励问题 - 还有其他事情要做（预处理或变换）在将它们馈入估算器之前的功能？

如果我在做某种分类器，我会亲自使用此顺序

归一化
pca
功能选择

归一化：您将首先进行归一化以使数据进入合理的范围。如果您有数据（X，Y）以及x is from -1000 to +1000和y is from -1 to +1的范围，您可以看到任何距离度量都会自动说出Y的更改不如X的更改重要。我们还不知道是这样。因此，我们想将数据标准化。

pca：使用数据的特征值分解来找到描述数据点方差的正交基集。如果您有4个特征，PCA可以向您显示只有2个特征真正区分了数据点，这将我们带到了最后一步

功能选择：拥有一个更好地描述数据的坐标空间后，您可以选择哪些功能是显着的。通常，您将使用PCA中最大的特征值（EV）及其相应的特征向量来代表您的表示。由于较大的电动汽车意味着该数据方向有更大的差异，因此您可以在隔离特征方面获得更多的粒度。这是减少问题维度数量的好方法。

当然，这可能会因问题而变化，但这只是通用指南。

一般而言，归一化是> PCA 之前。问题的关键是功能选择顺序，这取决于特征选择的方法。

一个简单的特征选择是查看该功能的方差或标准偏差是很小的。如果这些值相对较小，则此功能可能无法帮助分类器。但是，如果在此之前进行归一化，则标准偏差和方差将变得较小（通常小于1），这将导致std或不同功能之间的var差异很小。如果使用零均值的归一化，则所有功能中的平均值将等于0，而std等于1.在这一点上，在功能选择之前进行归一化可能是不好的

功能选择是灵活的，并且有许多选择功能的方法。特征选择的顺序应根据实际情况

选择

在这里很好的答案。一分需要突出显示。PCA是降低维度的一种形式。它将找到一个较低的尺寸线性子空间，可以很好地近似数据。当此子空间的轴与一个人开始的功能保持一致时，它也会导致可解释的特征选择。否则，PCA之后的功能选择将导致特征是原始功能集的线性组合，并且很难根据原始功能集进行解释。

相关内容

最新更新

热门标签：