我想知道我是否可以用DataFusion按特定名称的目录执行数据管道



我使用的是谷歌云平台数据融合。

假设bucket的路径如下:

test_buk/。。。

在test_buk bucket中有四个文件:

201909012019902

2019100120191002

假设test_buk中有一个名为dir.的目录

我有一个基于201909(例如,20190901201990902(的基于前缀的捆绑包

此外,我有一个基于201910(例如,20191001、20191002(的基于前缀的捆绑包

我想完成201909和201910捆绑包的数据管道。

以下是我尝试过的:

带有regex路径筛选器gs://test_buk/dir//2019以运行数据管道。

如果插入regex路径过滤器,则不会读取Input值,同样也不会有Output值。

当我想在捆绑包中创建一个具有特定目录的数据管道时,如何在数据融合中处理它?

如果直接使用原始路径(gs://test_buk/dir/(,则在转义正则表达式中的特殊字符时可能会出错。这可能是您没有将任何与过滤器匹配的输入文件输入到管道中的原因。

我建议您使用"*"为了计算初始部分(假设您还指定了路径,则其他文件夹中没有其他文件与过滤器匹配(。

因此,我会根据您想要使用的文件组使用以下表达式(可以随意更改文件的扩展名(:

path=gs://test_buk/dir/

regex路径筛选器=.*201909.*\.csv.201910.*\.csv

如果你想了解更多关于使用的正则表达式的信息,你可以看看(1(

最新更新