以前有人执行过从内部部署到谷歌云的迁移吗?
如果我使用Dataproc,它如何处理从Apache Hadoop和Spark到Dataproc的实时流数据?
解决方案1:
我认为您可以在dataproc
集群上使用Spark Structured streaming
和Cloud Pub Sub
:
https://cloud.google.com/pubsub/lite/docs/write-messages-apache-spark
以前Pub Sub
只与Spark DStream
兼容,但现在您可与CCD_ 6配合使用。
解决方案2:
您可以考虑在GCP
上使用Databricks
,该产品在GCP
上很年轻,但在Spark
的顶部提供了许多功能(用于批处理和流媒体(。
解决方案3:
如果重写作业不太困难,您还可以考虑使用Dataflow
runner从Spark
迁移到Beam
。
Beam
和Dataflow
提供了更多关于Streaming
的功能,并且是serverless
,并且在GCP
上完全管理。