我想使用自定义AMI(Docker?)启动多个Amazon EC2 Spot Instances(Fleet?)来执行深度学习训练任务。我希望所有实例共享一组通用文件以训练模型。
当由于价格限制/需求而被AWS终止时,这里的想法不是失去训练历史记录并在EBS(网络驱动器?)中保留备份。任务状态可以在文件中更新,然后在实例可用时恢复。
是否可以启动所有实例并让他们合作完成培训任务?什么样的设置可以完成此操作?
首先,您可能对AWS市场的深度学习AMI感兴趣,AWS市场与流行的深度学习工具完全配合了。
如果您使用的软件将其数据保存到本地文件系统(而不是Amazon S3),则您可以使用深度学习AMI在多个Amazon EC2实例(包括点现场实例)之间共享文件系统。Amazon EFS与NAS相似,可以在多个实例中同时使用。
EFS卷可以通过用户数据脚本安装,以及一个设置脚本来加载并运行所需的应用程序(这比制作新AMI更容易)。