Bigquery数据从S3的传输量和根据最后修改日期过滤数据的效率



我正在计划一个从S3桶到BigQuery的管道。我设置了每天从S3传输的bigquery数据,如下所述。因此,我有一个数据传输配置,它每天查找前缀为s3://mybucket/my/path/的文件,并将它们添加到BigQuery表中。

现在,其中一些文件正在定期更新。幸运的是,数据传输服务足够聪明,只获取新文件或更新的文件。

我的问题:由于S3没有提供一种有效的(即服务器端)方式来根据修改的日期时间列出文件,我想知道它是如何工作的。google是否跟踪每个PUT事件并将元数据保存在某个地方,包括修改时间,以便他们知道在下次传输运行时要传输哪些文件?

为什么我问这个:桶迟早会变得巨大,里面的很多文件都会定期更新(即相同的密钥,但内容会改变),所以我想知道是否每次数据传输运行都必须扫描整个桶!

当然,我相信谷歌的工程师会实现最好的解决方案,我不怀疑这一点,但我想确保这不会成为一个瓶颈。

定时传输使用修改时间过滤来避免传输重复数据。在性能方面,主要的瓶颈将是全球S3到GCP的带宽限制,这很难预测,并且在区域之间变化很大,但通常在x10Gbps范围内。

对于结构化<15tb数据,一般建议使用BigQuery数据传输服务。这里有非常通用的网络传输时间估计。

您还应该考虑传输操作的相关配额。

虽然TLS用于数据传输,但如果您希望通过安全的私有连接进行数据传输,您应该考虑使用VPC-SC。

相关内容

  • 没有找到相关文章

最新更新