将文件从 GCS 加载到 BigQuery - 最好的方法是什么?



我需要将约100万行加载到BigQuery表中。我的方法是将数据写入云存储中,然后使用加载API一次加载多个文件。做这件事的最有效方法是什么?我可以将写作与GCS一部分并行。当我调用LOAD API时,我会传递所有URI,因此我只需要一次调用一次。我不确定如何在后端进行这种加载。如果我传递多个文件名,此加载会在多个进程中运行吗?如何决定每个文件的大小以获得最佳性能?谢谢

将所有百万行放入一个文件中。如果未压缩文件,那么BigQuery可以与许多工人并行阅读。

来自https://cloud.google.com/bigquery/quota-policy

  • BigQuery可以读取高达4GB的压缩文件(.gz)。

  • BigQuery可以读取高达5000GB的未压缩文件(.csv,.json,...)。BigQuery弄清楚如何并行阅读 - 您不必担心。

相关内容

最新更新