设X为m×n(m:记录数,n:属性数)数据集。当属性数量n较大并且数据集X有噪声时,分类变得更加复杂,并且分类精度降低。克服这个问题的一种方法是使用线性变换,即对Y=XR进行分类,其中R是n×p矩阵,并且p<n.我想知道线性变换是如何简化分类的?以及当X有噪声时,如果我们对变换后的数据Y进行分类,为什么分类精度会提高?
不是所有类型的线性变换都能工作,但有些线性变换有时很有用。具体而言,主成分分析(PCA)和因子分析是通常用于降维的线性变换。
基本思想是,大多数信息可能包含在数据集特征的某种线性组合中,通过丢弃其余信息,我们迫使自己使用更简单的模型/减少过拟合。
这并不总是那么好。例如,即使其中一个特征实际上是我们试图分类的东西,它仍然可能被PCA丢弃,因为它的可变性很低,从而丢失重要信息。