亚马逊EC2现场实例车队使用AMI和常见文件



我想使用自定义AMI(Docker?)启动多个Amazon EC2 Spot Instances(Fleet?)来执行深度学习训练任务。我希望所有实例共享一组通用文件以训练模型。

当由于价格限制/需求而被AWS终止时,这里的想法不是失去训练历史记录并在EBS(网络驱动器?)中保留备份。任务状态可以在文件中更新,然后在实例可用时恢复。

是否可以启动所有实例并让他们合作完成培训任务?什么样的设置可以完成此操作?

首先,您可能对AWS市场的深度学习AMI感兴趣,AWS市场与流行的深度学习工具完全配合了。

如果您使用的软件将其数据保存到本地文件系统(而不是Amazon S3),则您可以使用深度学习AMI在多个Amazon EC2实例(包括点现场实例)之间共享文件系统。Amazon EFS与NAS相似,可以在多个实例中同时使用。

EFS卷可以通过用户数据脚本安装,以及一个设置脚本来加载并运行所需的应用程序(这比制作新AMI更容易)。

最新更新