我是缩放机器学习功能的概念的新手,我读到,与其他功能相比,当一个功能范围非常高时,缩放将很有用。但是,如果我选择扩展培训数据,则:
- 我可以扩展一个具有很高范围的功能吗?
- 如果我扩展了火车数据的整个
X
,那么我还需要扩展火车数据和整个测试数据的y
吗?
- 是的,您可以扩展具有很高范围的功能,但请确保没有其他功能具有很高的范围缩放特征和效果结果(输出值),甚至略有变化。建议(但不是强制性)扩展培训集中的所有功能。
- 您不需要将火车数据的y缩放为算法或模型将设置参数值以获取成本最小(错误),即K {y(output)-y(onsimal)}。但是,如果缩放Xtrain,则测试集(特征值,XTEST)(仅在对Ytrain进行缩放时才缩放YTEST)才需要缩放(使用训练平均值和方差),然后再将其馈送到模型,因为该模型尚未看到此之前的数据并已在具有缩放范围的数据上进行了培训,因此,如果测试数据的特征值与火车数据中相应的特征范围的特征值通过相当高的值有所不同,那么该模型将对相应的测试数据输出错误的预测。
是的,您可以扩展单个功能。您可以将缩放解释为对每个功能具有相同重要性的一种手段。例如,想象一下您有关于人的数据,您可以通过两个功能描述您的示例:身高和体重。如果您以米为单位的高度和千克的重量,则在计算两个示例之间的距离时,k-near的邻居分类器可能仅基于重量而做出决定。在这种情况下,您可以将功能之一扩展到另一个功能。通常,我们将所有特征扩展到相同的范围(例如0-1)。此外,请记住,您用于扩展培训数据的所有值必须用于扩展测试数据。
至于因变量y
,您不需要扩展它。