将数千个 JSON 文件加载到 BigQuery 中



我有大约 10,000 个 JSON 文件,我想将它们加载到 BigQuery 中。由于BQ只接受ndJSON,我花了几个小时寻找解决方案,但我找不到一种简单干净的方法来将所有文件转换为ndJSON。

我测试了cat test.json | jq -c '.[]' > testNDJSON.json,转换文件效果很好,但是如何一次转换所有文件?

现在,我的 ~10k 文件在 GCP 存储桶上,重量 ~5go。

谢谢!

您在搜索中遇到过 Dataprep 吗?Dataprep 可以从 Cloud Storage 读取数据,帮助您格式化数据并将数据插入 BigQuery。

或者,您可以使用云数据流 I/O 转换来自动处理此问题。请参阅下面的链接以供参考。

希望这有帮助。

我的建议是使用谷歌提供的云数据流模板将文件传输到BQ,您可以使用名为Cloud Storage Text to BigQuery ,请务必考虑使用 UDF 函数来转换 JSON 文件。

最新更新