如何在给定训练数据和带有类标签的测试数据的情况下,用R语言进行最小二乘回归



我有一个63*62的训练集,并且类标签也存在。测试数据是一个25*62的尺寸,也有类标签。既然如此,我该如何进行最小二乘回归呢?我使用的代码是:

res = lm(height~age)

身高和年龄对应什么?当我有61个特征+ 1个类(使训练数据有62列)时,我该如何输入参数?

我如何在测试数据上应用模型?

如果您有62列,您可能需要使用更通用的公式

res = lm(height ~ . , data = mydata)

注意句号'。'表示其余的变量。但前面的答案是完全正确的,因为变量比观察值多,因此答案(如果有不应该有的)是完全无用的。

heightage将仅仅是数据框架中列的标签。height为预测变量。你可以在这里设置任意多的变量:res = lm(height~age+wight+gender)

然而,我必须说这个问题对我来说似乎有点奇怪,因为如果你在训练集中执行62个变量和62个点的回归,这仅仅意味着你总是会有一个精确的解。训练集应该总是(显著)大于所使用的变量的数量。

相关内容

最新更新