从BigQuery加载数据时合并左侧

我有一个输入表：input和一个或多个maptables，其中输入包含多个标识符和日期的数据。模式如下：

#input
Id: string (might contain empty values)
Id2: string (might contain empty values)
Id3: string (might contain empty values)
Date: datetime
Value: number
#maptable_1
Id: string
Id2: string
Target_1: string
#maptable_2
Id3: string
Target_2: string

我现在所做的是运行一个管道，为每个date/(id, id2, id3)组合加载来自input的数据，并在python中对一个或多个maptables应用左合并(两者都作为DataFrame(。然后，我将结果流式传输到第三个名为output的表中，该表具有以下模式：

#output
Id: string
Id2: string
Id3: string 
Date: datetime
Value: number
Target_1: string (from maptable_1)
Target_2: string (from maptable_2)
Target_x: ...

现在我在想，这并不是真正有效的。如果我更改映射表中的一个值，则必须为每个date/(id, id2, id3)组合重做所有管道。

因此，我想知道在加载数据时是否可以直接应用左合并？这样的查询会是什么样子？
在多个映射表和目标列的情况下，这样做是否也有益？查询是否不会变得过于复杂或不可读，特别是在id列不相同的情况下？

这样的查询会是什么样子？

下面是BigQuery标准SQL

INSERT `project.dataset.output`  
SELECT *
FROM `project.dataset.input` i
LEFT JOIN `project.dataset.maptable_1` m1 USING(id, id2)
LEFT JOIN `project.dataset.maptable_2` m2 USING(id3)

在多个映射表和目标列的情况下。。。

如果你的所有地图表都与你的问题中的两个地图相同/相似-在这种情况下，每个额外的地图都是额外的LEFT JOIN

相关内容

最新更新

热门标签：