我正在尝试运行以下代码:
pv_model <- glm(SalePrice ~ MSSubClass + MSZoning..., data = train)
summary(pv_model)
pv_predict <- predict(pv_model)
train$PV <- pv_predict
然而,当我尝试将预测分配为火车数据集中的一列时,我得到了这个错误:
Error: Assigned data `predict(pv_model)` must be compatible with existing data.
x Existing data has 730 rows.
x Assigned data has 540 rows.
i Only vectors of size 1 are recycled.
进一步检查,看起来pv_predict变量只包含540行,尽管pv_model有730行。是什么造成了这种差异?为什么预测函数消除了这么多行,我能做些什么来解决这个问题?
任何帮助都是感激的。
训练集中缺少数据可能是问题所在。试一试:
predict(pv_model, newdata=train)
这将使用所有行,并给出预测器中缺少数据的NA
。