我有一个数据集,总共有58个样本。数据集有两列"测量信号"和"people_in_area"。因此,我正在尝试使用Scikit-learn训练线性回归模型。目前,我将 75% 的数据集用于训练,25% 用于测试。但是,根据数据在拆分前的顺序,我获得了不同的 R 平方值。
我认为由于数据集很小,根据数据拆分前的顺序,不同的值将保持为x_test和y_test。因此,我正在考虑在我的线性回归模型上使用"交叉验证"来划分测试并随机训练数据几次,对其进行更多训练,并且能够测试更多,以这种方式获得更可靠的结果。这是一种正确的方法吗?
是的,使用交叉验证可以更好地估计模型性能。
但是,随机拆分(交叉验证)不适用于时间序列和/或所有数据分布。
"最终模型"不会更好,只有您对模型性能的估计。