如何将 On Prem Hadoop 迁移到 GCP



我正在尝试将我们组织的 hadoop 作业迁移到 GCP...我在 GCP 数据流和数据处理之间感到困惑......

我想重用我们已经创建的Hadoop作业,并尽可能减少集群的管理。我们还希望能够在集群生命周期之后持久保存数据......

谁能建议

我会从DataProc开始,因为它非常接近你所拥有的。

查看 DataProc 初始化操作,https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions,创建一个简单的集群并感受一下它。

数据流是完全托管的,您不操作任何群集资源,但同时您无法按原样将现场群集迁移到 DataFlow,您需要迁移(有时重写(您的 Hive/Pig/Oozie 等。

DataFlow 的成本计算方式也不同,尽管与 DataProc 相比没有前期成本,但每次运行作业时,都会在 DataFlow 上产生一些与之相关的成本。

很大

程度上取决于你的Hadoop作业的性质,以及你在选择Cloud Dataproc(托管大数据平台 - Hadoop/Spark的方向(和/或Cloud Dataflow(托管大数据平台 - Apache Beam用于流用例的方向(方面所执行的活动。

关于确保数据在操作之外的持久性,您可能需要考虑将数据存储在GCS或PD上,如果这是您的用例需要的选项。

最新更新