我们需要您对以下场景的数据流设计的指导。
要求:我们需要构建一个数据流作业来读取数据流MS SQL数据库并写入Bigquery。我们需要数据流作业将"表名列表"(源表名和目标表名(作为输入来读取和写入数据。
问题:在日常计划中,数据流是否可以将表列表(即50个表名(作为输入,并将数据从源复制到目标,或者是否应该将其设计为50个独立的数据流作业。数据流会自动调整工作人员的数量吗?而不会关闭源MS SQL服务器?
关键信息:来源:MS SQL数据库目标:Bigquery表号:50日程安排:每天,比如早上8点写入处理:写入截断(或写入附加(
您必须创建一个数据流模板才能按计划触发它。在该模板上,您必须定义一个输入变量,您可以在其中放置表列表。
然后,在同一个数据流作业中,可以有50个独立的管道,每个管道读取一个表并在BigQuery中下沉数据。由于配额(每个项目限制为25个(,您无法并行运行50个数据流作业。此外,这将降低成本效益。
事实上,Dataflow能够在同一个工作线程的不同管道(在不同的线程中(上并行化,并根据工作负载需求放大和缩小集群大小。