如何改进回归?



我想问一下,是否有任何方法可以使回归真正适用于我的数据集。

我的问题是,在我用随机森林或支持向量机回归器训练数据后,它在训练数据集中工作得很好,但当我用测试数据集尝试时,它显示出非常糟糕的结果。即使它们有相同的基本方程

我真的不知道如何改善这一点。这是否意味着我应该用更多的数据集来训练我的回归?

有人能帮我吗?(

最好是你想要训练和测试的数据集类型…例如,dimension、# items等。有几个原因,但在情况下,通常训练失败,当

  1. 训练集的大小很小
  2. 域空间太大无法学习/非常非凸/非常非线性
  3. 模型参数不合适

这只是我的想法,但是作为回归器,SVM或其他基于树的模型(如随机森林/决策树)在数据集规模较小时有点不稳定。如果维度大小小于10,我建议使用高斯过程回归器。

并且建议在尝试训练/测试任何模型之前对数据集进行规范化/正则化。

仅供参考,以下是我刚刚谷歌的链接。

  • https://statmodeling.stat.columbia.edu/2015/01/29/six-quick-tips-improve-regression-modeling/
  • https://www.jigsawacademy.com/5-super-tips-to-improve-your-linear-regression-models/

我们无法回答你的问题。你甚至不需要提供数据或代码。你怎么知道你的问题为什么会出现呢?

只是我的两点意见:

  1. 列车和测试数据不平衡吗?→这是不良测试结果的主要原因

  2. 样品的大小是否合理?

相关内容

  • 没有找到相关文章

最新更新