如何进行巨大数据集的交叉验证和超级参数调整



我有一个10 gb的CSV文件,我在pandas.read_csv()中使用了" chunksize"参数来读取和预处理数据,用于训练模型使用在线学习算法之一。

通常,在整个训练数据集上进行交叉验证和超参数调整,并使用最佳的超参数训练模型,但是在大量数据的情况下,如果我在块上进行相同的话培训数据如何选择高参数?

我相信您正在寻找在线学习算法,如此链接缩放策略在大型数据集中提到的算法。您应该使用支持partial_fit参数的算法将这些大数据集加载到块中。您还可以查看以下链接以查看哪个链接对您有帮助,因为您没有指定您正在处理的确切问题或算法:

  • numpy保存部分结果
  • 在计算上诱人 - Sklearn
  • 在Sklearn中使用大型数据集
  • 比较各种在线Sovers -sklearn

edit :如果要解决类不平衡问题,则可以尝试以下操作:python中的imabealanced-learn库

相关内容

  • 没有找到相关文章

最新更新