我计划使用Google Cloud Platform准备一个无服务器的数据管道。我的计划是使用Dataflow/Dataproc对来自三个不同来源的数据进行批处理。
我的输入源是:
- Cloud SQL (MySQL(
- Cloud SQL (PostgreSQL(
- 蒙戈数据库
但是在阅读了他们的文档后,我发现他们没有任何针对云SQL或MongoDB的输入。
我也检查了他们的自定义驱动程序部分,但这仅适用于 Java,但我打算使用 Python。
有没有想到我如何使用数据流/数据处理器摄取这 3 个不同的来源?
在您的情况下,我认为最好的选择是使用 Dataproc。每当要进行批处理时。
通过这种方式,您可以使用Hadoop或Spark,并且可以更好地控制工作流程。
您可以将 Python 代码与 Spark 一起使用。{1}
您可以使用 Spark 执行 SQL 查询。{2}
还有一个用于MongoDB和Spark的连接器。{3}
以及MongoDB和Hadoop的连接器。{4}
{1}:https://spark.apache.org/docs/0.9.0/python-programming-guide.html
{2}:https://spark.apache.org/docs/latest/sql-programming-guide.html
{3}:https://docs.mongodb.com/spark-connector/master/
{4}:https://docs.mongodb.com/ecosystem/tools/hadoop/