大查询数据传输 - 如何避免文件限制?



我有一个GCS桶,每天获取~10k到20k的新文件。

我想设置 BQ 数据传输以每天将新文件加载到我的表中。

鉴于大量文件,它针对配额运行并给我此错误:Error status: Transfer Run limits exceeded. Max size: 15.00 TB. Max file count: 10000. Found: size = 24448691 B (0.00 TB) ; file count = 19844.

有没有办法避免这些配额?

根据 GCP 文档,Bigquery 传输作业已包含在加载作业限制的预定义配额中。

根据提供的信息,作业配置限制中的最大源 URI 数似乎是此报告的 Bigquery 传输问题最可能的根本原因,因为相关记录的限制(即 10k(和当前文件计数指标等于19844

除了 @Kevin Quinzel 在此 Stack 线程中发布的答案之外,等待解决功能请求的任何努力,我注意到供应商提供了一个分片白名单功能,允许处理超过 10k 个文件,假设 Biqguery 传输服务可以自动启动多个 BQ 导入作业,以便跨多个 BQ 加载作业分片文件,从而减轻 10k 文件限制。

为了为特定的 GCP 项目启用此功能,您可能需要向供应商提交单独的支持案例。

最新更新