我想以一种很好的方式找到随机孔分类器(带有scikit-learn)的最佳参数,它可以很好地将其通用到其他数据集(可能不是IID)。我在考虑使用整个培训数据集进行网格搜索,同时评估其他数据集上的评分功能。在python/scikit-learn中可以轻松执行此操作吗?
我认为您无法在不同的数据集上进行评估。GridSearchCV背后的整个想法是,它将您的训练设置分为n倍,在这些折叠的N-1上进行训练,然后在其余的折叠上进行评估,重复该过程,直到每个折叠都被"奇怪的一个"为止。这使您不必设置特定的验证集,您只需使用培训和测试集。
如果可以的话,您可以简单地合并两个数据集并执行GridSearchCV,这可以确保对其他数据集的概括能力。如果您谈论对未来未知数据集的概括,那么这可能是行不通的,因为没有一个完美的数据集可以训练一个完美的模型。