AML中使用的数据集转换的最佳实践

大型数据集转换的最佳实践是什么？在我处理的许多情况下，第一步总是将输入数据集转换为可供训练使用的格式(我处理数千张图像(。转换脚本被天真地创建为在本地工作(输入目录->输出目录(，并且我们在估计器内部运行(blob存储->blob存储(。基于此处的指导原则https://learn.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets#mount-与下载相比，看起来下载然后上传比挂载更好，我是对的吗？其中的一部分是并行处理还是分布式处理准则？

查看此帖子：https://learn.microsoft.com/en-us/azure/machine-learning/how-to-data-ingest-adf，看起来他们建议使用批处理进行自定义并行处理。如果是，使用ADF的优势是什么？为什么不将AML管道与运行批处理的第一阶段一起使用呢？

对于数据集装载与下载，如果您正在处理数据集中的所有数据，则下载的性能将优于装载。对于并行处理，有一个专门的流水线步骤：https://github.com/Azure/MachineLearningNotebooks/tree/master/how-to-use-azureml/machine-learning-pipelines/parallel-run

何时使用ADF v.s.AzureML进行数据摄取
以下是一篇文章，介绍了这两种方法的优缺点。您可以使用它根据您的场景和需求进行评估。

相关内容

最新更新

热门标签：