我需要澄清一些事情。假设我有来自两个不同网站的数据集
- Jaka网站
- 让网站
第一个网站有一个包含不同信息的不同数据集。让我们假设Jaka网站有一个名为血液数据集、手数据集、腿数据集和眼睛数据集的数据集。让我们假设Maka网站也有一些数据集,称为手指数据集、胃数据集、眼球数据集、脚趾数据集和膝盖数据集。
让我们假设这些数据集中最大的是来自Maka网站的手指数据集。我只使用这个手指数据集来训练LINEARSVC并保存模型。然后,我使用相同的模型来预测所有其他数据集的结果。该模型在所有Jaka网站的数据集上表现不同,但在Maka网站的数据集上给出相同的结果。我正在用回归方法解决这个问题。
这里的问题是,我得到相同的结果在Maka的网站上的所有数据集。我想可能是因为我使用了那个网站上的一个数据集来训练模型。
请告诉我,我错过了什么吗?
- 您的训练和测试数据应该来自相同的I.I.D(独立和同分布)。即每个数据点(包括测试和训练)所有的数据点应该是相互独立的
- 你正在使用的底层数据集(用于训练和测试)很有可能不是来自相同的分布。