如何在谷歌云计算引擎中的多个实例之间执行并行计算?



我最近遇到了一个问题,即使用Google Cloud Compute Engine中的VM使用Python脚本处理8 GB的泡菜文件。问题是该过程花费的时间太长,我正在寻找减少处理时间的方法。可能的解决方案之一是共享脚本中的进程,或在多个 VM 的 CPU 之间映射这些进程。如果有人知道如何执行它,请与我分享!

您可以在 Google Cloud Platform (GCP( 中使用集群进行大规模技术计算。有开源软件,如ElastiCluster,在使用Google Compute Engine(GCE(时提供集群管理和对配置节点的支持。

集群运行后,工作负载管理器将管理任务执行和节点分配。有各种流行的商业和开源工作负载管理器,如威斯康星大学的HTCondor,SchedMD的Slurm,Univa Grid Engine和IBM的LSF Symphony。

这篇文章也很有帮助。

它看起来像一个HPC问题。看看这个链接:https://cloud.google.com/solutions/architecture/highperformancecomputing。

您的问题有很多有价值的解决方案,但这取决于您的案例细节。第一个简单的方法可能是在逻辑上将任务拆分为小作业。然后,您可以将这些作业的子集分配给专用实例组中的每个 GCE 实例。

您可以考虑创建一组预定义数量的实例。每次运行都可以依赖于启动脚本,以便访问它必须执行的作业。作业完成后,可以删除实例并将其替换为新实例(Google 计算引擎托管实例组将自动创建新实例(。您必须仅管理组应启动和停止的时间。

此外,您可以考虑抢占式实例(更便宜(。

希望这对你有帮助。 再见

最新更新