我有一个63*62的训练集,并且类标签也存在。测试数据是一个25*62的尺寸,也有类标签。既然如此,我该如何进行最小二乘回归呢?我使用的代码是:
res = lm(height~age)
身高和年龄对应什么?当我有61个特征+ 1个类(使训练数据有62列)时,我该如何输入参数?
我如何在测试数据上应用模型?
如果您有62列,您可能需要使用更通用的公式
res = lm(height ~ . , data = mydata)
注意句号'。'表示其余的变量。但前面的答案是完全正确的,因为变量比观察值多,因此答案(如果有不应该有的)是完全无用的。
height
和age
将仅仅是数据框架中列的标签。height
为预测变量。你可以在这里设置任意多的变量:res = lm(height~age+wight+gender)
然而,我必须说这个问题对我来说似乎有点奇怪,因为如果你在训练集中执行62个变量和62个点的回归,这仅仅意味着你总是会有一个精确的解。训练集应该总是(显著)大于所使用的变量的数量。