谷歌数据流设计



我们需要您对以下场景的数据流设计的指导。

要求:我们需要构建一个数据流作业来读取数据流MS SQL数据库并写入Bigquery。我们需要数据流作业将"表名列表"(源表名和目标表名(作为输入来读取和写入数据。

问题:在日常计划中,数据流是否可以将表列表(即50个表名(作为输入,并将数据从源复制到目标,或者是否应该将其设计为50个独立的数据流作业。数据流会自动调整工作人员的数量吗?而不会关闭源MS SQL服务器?

关键信息:来源:MS SQL数据库目标:Bigquery表号:50日程安排:每天,比如早上8点写入处理:写入截断(或写入附加(

您必须创建一个数据流模板才能按计划触发它。在该模板上,您必须定义一个输入变量,您可以在其中放置表列表。

然后,在同一个数据流作业中,可以有50个独立的管道,每个管道读取一个表并在BigQuery中下沉数据。由于配额(每个项目限制为25个(,您无法并行运行50个数据流作业。此外,这将降低成本效益。

事实上,Dataflow能够在同一个工作线程的不同管道(在不同的线程中(上并行化,并根据工作负载需求放大和缩小集群大小。

最新更新