直接使用HDFS中的数据来训练ML模型是一个很好的策略



我想在计算节点上训练一个模型,但使用来自存储集群(HDFS)的数据(parquet格式)。我不能复制粘贴整个数据集从HDFS到我的计算节点。这将是一个可行的解决方案(我使用python)?

我做了一些研究,似乎Petastorm是一个很有前途的解决方案。

然而,我看到另一个帖子说,引用,

推荐的工作流程是:

使用Apache Spark加载和预处理数据。

使用Petastorm spark_dataset_converter方法将数据从一个Spark DataFrame到一个TensorFlow Dataset或PyTorch DataLoader.

将数据馈送到DL框架中用于训练或推理。

我不确定我在这里需要PySpark的原因。有人知道为什么吗?如果有人做过类似的用例,你能分享一下你的解决方案吗?提前感谢!

如果文档说它可以使用Spark数据框架,那么是的,这意味着PySpark。

(Py)Spark本身有机器学习算法。

有人知道为什么吗?

正如你所说的,你不能直接将训练数据集加载到一个节点。

最新更新