用几个大型CSV文件训练模型

我有一个由几个大型csv文件组成的数据集。它们的总大小大于执行训练的机器的RAM。

我需要从Scikit-Learn或TF或pyTorch训练ML模型(考虑SVR，而不是深度学习)。我需要使用整个数据集，这是不可能一次加载。请问有什么建议吗?

我以前也遇到过这种情况，我的建议是后退一步，再看看这个问题。

你的模型绝对需要一次所有的数据吗?还是可以分批完成?也有可能您正在使用的模型可以分批完成，但是您正在使用的库不支持这种情况。在这种情况下，要么尝试找到一个支持批处理的库，要么如果这样的库不存在(不太可能)，"重新发明轮子";你自己，也就是说，从头开始创建模型并允许批处理。然而，正如你提到的问题，你需要使用来自Scikit-Learn, TensorFlow或PyTorch的模型。所以，如果你真的想坚持使用你提到的库，有一些技术，比如Alexey Larionov和I'mahdi在你的问题的评论中提到的与PyTorch和TensorFlow有关的技术。

你所有的数据都是相关的吗?一旦我发现我的整个数据子集对我试图解决的问题毫无用处;还有一次，我发现它只起了一点点作用。降维、降数和统计建模可能是你的朋友。这是一个关于数据缩减的维基百科页面的链接:

https://en.wikipedia.org/wiki/Data_reduction

数据减少不仅会减少你需要的内存量，还会改进你的模型。输入错误数据意味着输出错误数据。

相关内容

最新更新

热门标签：