我已经看到SageMaker的内置算法支持分布式训练。然而,我还没有找到任何关于如何构建包含自定义算法的数据和/或图像的文档,以便以分布式方式进行训练。如有任何帮助,我们将不胜感激。
这里已经讨论过了:AWS Sagemaker自定义用户算法:如何利用额外的实例
基本上,您需要管理不同容器之间的通信。你可以在这里找到一些提示:https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo.html#your-算法训练算法运行容器dist训练
或者,您可以使用内置算法(对象分类、检测、分割)或内置DL环境(TF、MXNet等)。您使用自定义容器的具体原因是什么?