我需要将约100万行加载到BigQuery表中。我的方法是将数据写入云存储中,然后使用加载API一次加载多个文件。做这件事的最有效方法是什么?我可以将写作与GCS一部分并行。当我调用LOAD API时,我会传递所有URI,因此我只需要一次调用一次。我不确定如何在后端进行这种加载。如果我传递多个文件名,此加载会在多个进程中运行吗?如何决定每个文件的大小以获得最佳性能?谢谢
将所有百万行放入一个文件中。如果未压缩文件,那么BigQuery可以与许多工人并行阅读。
来自https://cloud.google.com/bigquery/quota-policy
-
BigQuery可以读取高达4GB的压缩文件(.gz)。
-
BigQuery可以读取高达5000GB的未压缩文件(.csv,.json,...)。BigQuery弄清楚如何并行阅读 - 您不必担心。