我有一个10 gb的CSV文件,我在pandas.read_csv()中使用了" chunksize"参数来读取和预处理数据,用于训练模型使用在线学习算法之一。
通常,在整个训练数据集上进行交叉验证和超参数调整,并使用最佳的超参数训练模型,但是在大量数据的情况下,如果我在块上进行相同的话培训数据如何选择高参数?
我相信您正在寻找在线学习算法,如此链接缩放策略在大型数据集中提到的算法。您应该使用支持partial_fit
参数的算法将这些大数据集加载到块中。您还可以查看以下链接以查看哪个链接对您有帮助,因为您没有指定您正在处理的确切问题或算法:
- numpy保存部分结果
- 在计算上诱人 - Sklearn
- 在Sklearn中使用大型数据集
- 比较各种在线Sovers -sklearn
edit :如果要解决类不平衡问题,则可以尝试以下操作:python中的imabealanced-learn库