Dataproc工作流(临时集群)还是用于批处理的Dataproc Serverless



GCP Dataproc同时提供无服务器(Dataproc serverless(&用于spark批处理的临时集群(Dataproc工作流模板(。

如果Dataproc无服务器可以隐藏基础设施的复杂性,我想知道通过Dataproc工作流使用Dataproc临时集群进行Spark批处理的业务用例是什么?

Serverless在大多数情况下都是优越的,因为您可以消除在此期间维护复杂集群的摩擦(相信我,当集群设置发生变化时,这可能需要比应用程序开发付出更多的努力(,但如果您从另一个已经定义了集群设置和库的平台迁移,dataproc集群可能是更好的选择。此外,如果一个团队需要将集群用于其他目的,例如计算笔记本的分析任务,那么集群方法也会更好。

https://cloud.google.com/dataproc-serverless/docs/overview

Compute Engine上的Dataproc非常适合想要进行配置的用户和管理基础设施,然后在Spark和其他开源处理框架上执行工作负载

其他和如果你想要YARN的精华。Serverless仅适用于Spark。

相关内容

  • 没有找到相关文章

最新更新