小贝子编程

如何进行巨大数据集的交叉验证和超级参数调整

我有一个10 gb的CSV文件，我在pandas.read_csv（）中使用了" chunksize"参数来读取和预处理数据，用于训练模型使用在线学习算法之一。

通常，在整个训练数据集上进行交叉验证和超参数调整，并使用最佳的超参数训练模型，但是在大量数据的情况下，如果我在块上进行相同的话培训数据如何选择高参数？

我相信您正在寻找在线学习算法，如此链接缩放策略在大型数据集中提到的算法。您应该使用支持partial_fit参数的算法将这些大数据集加载到块中。您还可以查看以下链接以查看哪个链接对您有帮助，因为您没有指定您正在处理的确切问题或算法：

edit ：如果要解决类不平衡问题，则可以尝试以下操作：python中的imabealanced-learn库

相关内容