大型数据集转换的最佳实践是什么?在我处理的许多情况下,第一步总是将输入数据集转换为可供训练使用的格式(我处理数千张图像(。转换脚本被天真地创建为在本地工作(输入目录->输出目录(,并且我们在估计器内部运行(blob存储->blob存储(。基于此处的指导原则https://learn.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets#mount-与下载相比,看起来下载然后上传比挂载更好,我是对的吗?其中的一部分是并行处理还是分布式处理准则?
查看此帖子:https://learn.microsoft.com/en-us/azure/machine-learning/how-to-data-ingest-adf,看起来他们建议使用批处理进行自定义并行处理。如果是,使用ADF的优势是什么?为什么不将AML管道与运行批处理的第一阶段一起使用呢?
对于数据集装载与下载,如果您正在处理数据集中的所有数据,则下载的性能将优于装载。对于并行处理,有一个专门的流水线步骤:https://github.com/Azure/MachineLearningNotebooks/tree/master/how-to-use-azureml/machine-learning-pipelines/parallel-run
何时使用ADF v.s.AzureML进行数据摄取
以下是一篇文章,介绍了这两种方法的优缺点。您可以使用它根据您的场景和需求进行评估。