MovieLens 100k 数据集是否缺少验证集



MovieLens 100k 数据集提供了五对训练和测试集,用于 5 倍交叉验证。但是,我了解到在测试集进行测试之前应该使用验证集,以便获得最佳参数值。

我假设在最初的拆分中,五个"测试集"实际上是验证集。如果这是真的,那么就没有可以测试模型性能的"测试集"。那么,我是否应该重新拆分 MovieLens 数据以执行声音训练验证测试过程?

谢谢!

您实际上有 2 个选项可用于电影镜头组中的测试。

第一个选项:用户分为 5 组,每个组也分为基本组和测试组。基本组在这里"训练"您的算法,测试组用于测试。你有5个不同的组,所以你可以做5次学习和测试过程,最终得到各种集合的统计信息。

第二种选择:100k 集中的每个用户都有 20 个评级。在第二种情况下,您有两个集合 a 和 b。每个用户在 a 上有 10 个评级,在 b 上有 10 个评级。因此,您可以从集合 a 中学习,然后尝试猜测和比较集合 b。

当然,拥有完整的套装,如果您愿意,您也可以设置自己的组!

最新更新