Apache Beam FileIO match - 什么是更好/更有效的匹配文件的方法?



我只是想知道通配符的使用会对Beam匹配文件的方式产生影响吗?例如,如果我想将一个文件与Apache Beam匹配,那么如果我指定一个文件的直接路径(即文件夹/子文件夹/file.txt(,是否有优势。或者,如果我只给match((方法一个通配符作为输入,那么就框架的性能而言,它是高效还是更差?

感谢

与读取文件的成本(如果在分布式运行程序上运行,则会启动工作程序(相比,匹配的成本可以忽略不计。另一方面,多个读取(具有不同的直接路径(通常会比读取通配符匹配的开销更大。

最新更新