我知道该功能选择可以帮助我删除贡献可能较低的功能。我知道PCA有助于将可能相关的功能降低为一个,从而降低尺寸。我知道归一化将特征转化为相同的比例。
但是是否有建议的命令可以执行这三个步骤?从逻辑上讲,我认为我应该首先选择功能选择不良功能,然后将其标准化,最后使用PCA降低尺寸并使功能彼此独立。
此逻辑正确吗?
奖励问题 - 还有其他事情要做(预处理或变换) 在将它们馈入估算器之前的功能?
如果我在做某种分类器,我会亲自使用此顺序
- 归一化
- pca
- 功能选择
归一化:您将首先进行归一化以使数据进入合理的范围。如果您有数据(X,Y)以及x is from -1000 to +1000
和y is from -1 to +1
的范围,您可以看到任何距离度量都会自动说出Y的更改不如X的更改重要。我们还不知道是这样。因此,我们想将数据标准化。
pca:使用数据的特征值分解来找到描述数据点方差的正交基集。如果您有4个特征,PCA可以向您显示只有2个特征真正区分了数据点,这将我们带到了最后一步
功能选择:拥有一个更好地描述数据的坐标空间后,您可以选择哪些功能是显着的。通常,您将使用PCA中最大的特征值(EV)及其相应的特征向量来代表您的表示。由于较大的电动汽车意味着该数据方向有更大的差异,因此您可以在隔离特征方面获得更多的粒度。这是减少问题维度数量的好方法。
当然,这可能会因问题而变化,但这只是通用指南。
一般而言,归一化是> PCA 之前。问题的关键是功能选择顺序,这取决于特征选择的方法。
一个简单的特征选择是查看该功能的方差或标准偏差是很小的。如果这些值相对较小,则此功能可能无法帮助分类器。但是,如果在此之前进行归一化,则标准偏差和方差将变得较小(通常小于1),这将导致std或不同功能之间的var差异很小。如果使用零均值的归一化,则所有功能中的平均值将等于0,而std等于1.在这一点上,在功能选择之前进行归一化可能是不好的
功能选择是灵活的,并且有许多选择功能的方法。特征选择的顺序应根据实际情况
在这里很好的答案。一分需要突出显示。PCA是降低维度的一种形式。它将找到一个较低的尺寸线性子空间,可以很好地近似数据。当此子空间的轴与一个人开始的功能保持一致时,它也会导致可解释的特征选择。否则,PCA之后的功能选择将导致特征是原始功能集的线性组合,并且很难根据原始功能集进行解释。