我想在计算节点上训练一个模型,但使用来自存储集群(HDFS)的数据(parquet格式)。我不能复制粘贴整个数据集从HDFS到我的计算节点。这将是一个可行的解决方案(我使用python)?
我做了一些研究,似乎Petastorm是一个很有前途的解决方案。
然而,我看到另一个帖子说,引用,
推荐的工作流程是:
使用Apache Spark加载和预处理数据。
使用Petastorm spark_dataset_converter方法将数据从一个Spark DataFrame到一个TensorFlow Dataset或PyTorch DataLoader.
将数据馈送到DL框架中用于训练或推理。
我不确定我在这里需要PySpark的原因。有人知道为什么吗?如果有人做过类似的用例,你能分享一下你的解决方案吗?提前感谢!
如果文档说它可以使用Spark数据框架,那么是的,这意味着PySpark。
(Py)Spark本身有机器学习算法。
有人知道为什么吗?
正如你所说的,你不能直接将训练数据集加载到一个节点。