小贝子编程

如果我使用Dataproc，它如何处理从Apache Hadoop和Spark到Dataproc的实时流数据

本文关键字：Dataproc Hadoop Apache Spark 数据实时处理何处理如果 apache-spark hadoop google-cloud-platform real-time dataproc
更新时间 : 2023-09-21
英文 : If I use Dataproc, how does it process real-time streaming data from Apache Hadoop and Spark to Dataproc?

以前有人执行过从内部部署到谷歌云的迁移吗？

如果我使用Dataproc，它如何处理从Apache Hadoop和Spark到Dataproc的实时流数据？

解决方案1:

我认为您可以在dataproc集群上使用Spark Structured streaming和Cloud Pub Sub:

https://cloud.google.com/pubsub/lite/docs/write-messages-apache-spark

以前Pub Sub只与Spark DStream兼容，但现在您可与CCD_ 6配合使用。

解决方案2:

您可以考虑在GCP上使用Databricks，该产品在GCP上很年轻，但在Spark的顶部提供了许多功能(用于批处理和流媒体(。

解决方案3:

如果重写作业不太困难，您还可以考虑使用Dataflowrunner从Spark迁移到Beam。

Beam和Dataflow提供了更多关于Streaming的功能，并且是serverless，并且在GCP上完全管理。

相关内容