用几个大型CSV文件训练模型



我有一个由几个大型csv文件组成的数据集。它们的总大小大于执行训练的机器的RAM。

我需要从Scikit-Learn或TF或pyTorch训练ML模型(考虑SVR,而不是深度学习)。我需要使用整个数据集,这是不可能一次加载。请问有什么建议吗?

我以前也遇到过这种情况,我的建议是后退一步,再看看这个问题。

你的模型绝对需要一次所有的数据吗?还是可以分批完成?也有可能您正在使用的模型可以分批完成,但是您正在使用的库不支持这种情况。在这种情况下,要么尝试找到一个支持批处理的库,要么如果这样的库不存在(不太可能),"重新发明轮子";你自己,也就是说,从头开始创建模型并允许批处理。然而,正如你提到的问题,你需要使用来自Scikit-Learn, TensorFlow或PyTorch的模型。所以,如果你真的想坚持使用你提到的库,有一些技术,比如Alexey Larionov和I'mahdi在你的问题的评论中提到的与PyTorch和TensorFlow有关的技术。

你所有的数据都是相关的吗?一旦我发现我的整个数据子集对我试图解决的问题毫无用处;还有一次,我发现它只起了一点点作用。降维、降数和统计建模可能是你的朋友。这是一个关于数据缩减的维基百科页面的链接:

https://en.wikipedia.org/wiki/Data_reduction

数据减少不仅会减少你需要的内存量,还会改进你的模型。输入错误数据意味着输出错误数据。

最新更新