如果我使用Dataproc,它如何处理从Apache Hadoop和Spark到Dataproc的实时流数据



以前有人执行过从内部部署到谷歌云的迁移吗?

如果我使用Dataproc,它如何处理从Apache Hadoop和Spark到Dataproc的实时流数据?

解决方案1:

我认为您可以在dataproc集群上使用Spark Structured streamingCloud Pub Sub:

https://cloud.google.com/pubsub/lite/docs/write-messages-apache-spark

以前Pub Sub只与Spark DStream兼容,但现在您可与CCD_ 6配合使用。

解决方案2:

您可以考虑在GCP上使用Databricks,该产品在GCP上很年轻,但在Spark的顶部提供了许多功能(用于批处理和流媒体(。

解决方案3:

如果重写作业不太困难,您还可以考虑使用Dataflowrunner从Spark迁移到Beam

BeamDataflow提供了更多关于Streaming的功能,并且是serverless,并且在GCP上完全管理。

相关内容

  • 没有找到相关文章

最新更新