使用 Google Cloud SQL 或 MongoDB 作为 Dataflow/Dataproc 的输入



我计划使用Google Cloud Platform准备一个无服务器的数据管道。我的计划是使用Dataflow/Dataproc对来自三个不同来源的数据进行批处理。

我的输入源是:

  1. Cloud SQL (MySQL(
  2. Cloud SQL (PostgreSQL(
  3. 蒙戈数据库

但是在阅读了他们的文档后,我发现他们没有任何针对云SQL或MongoDB的输入。

我也检查了他们的自定义驱动程序部分,但这仅适用于 Java,但我打算使用 Python。

有没有想到我如何使用数据流/数据处理器摄取这 3 个不同的来源?

在您的情况下,我认为最好的选择是使用 Dataproc。每当要进行批处理时。

通过这种方式,您可以使用Hadoop或Spark,并且可以更好地控制工作流程。

您可以将 Python 代码与 Spark 一起使用。{1}

您可以使用 Spark 执行 SQL 查询。{2}

还有一个用于MongoDB和Spark的连接器。{3}

以及MongoDB和Hadoop的连接器。{4}

{1}:https://spark.apache.org/docs/0.9.0/python-programming-guide.html

{2}:https://spark.apache.org/docs/latest/sql-programming-guide.html

{3}:https://docs.mongodb.com/spark-connector/master/

{4}:https://docs.mongodb.com/ecosystem/tools/hadoop/

相关内容

  • 没有找到相关文章

最新更新