Cloud Data Fusion提供了使用图形管道UI表示创建ETL作业的能力,而Dataproc让我们运行之前创建的Spark/Hadoop/Hive作业。
以我对这两种服务的有限经验,我发现云数据融合是两者中更容易使用的&管理。我想知道创建&在Dataproc中运行作业优于Cloud Data Fusion。
你问了一个意见,所以你的问题应该结束…
无论如何,这主要取决于你喜欢什么!如果你是一名开发人员,你想要处理、管理、自定义/调整管道的所有步骤,以提高性能、可观察性或安全性,那么代码和Dataproc更适合你。同样的道理,如果你所有的开发人员已经知道Hadoop生态系统。
如果您更喜欢专注于数据转换/争吵与低/无代码解决方案,数据融合是为您。特别是如果你有一些或没有开发技能(业务用户)。
最后,所有的管道将在Dataproc上运行。