将 bigquery 数据移动到 Redshift



我需要将我的bigquery表移动到redshift。

目前我有一个 python 作业,它正在从红移中获取数据,它是在红移上增量加载我的数据。

此 python 作业是读取 bigquery 数据,在服务器中创建 csv 文件,在 s3 上删除相同的文件,readshift 表从 s3 上的文件中读取数据。但是现在时间大小将非常大,因此服务器将无法处理它。

你们碰巧知道比这更好的吗?

我需要移动的 bigquery 上的新 7 个表,每个表大约 1 TB,并设置了重复的列。(我正在做一个解嵌套连接以使其扁平化)

实际上,您可以按照此处的说明将数据从大查询移动到云存储桶。之后,您可以通过运行以下命令轻松地将数据从云存储桶移动到 Amazon s3 存储桶:

gsutil rsync -d -r gs://your-gs-bucket s3://your-s3-bucket

可以在此处找到有关此文档的文档

最新更新