从 Google Cloud Datastore 到 BigQuery 的增量数据传输



我们每天都在尝试使用计算引擎虚拟机实例将数据从 Google Cloud DataStore 复制到 BigQuery,但对我来说,将整个数据集复制到 BigQuery 的成本很高,基本上我们只需要更新的数据(仅更改的记录(我们不想使用 shell 脚本将整个表从数据存储复制到 BigQuery。 请帮助我们解决这个问题...

将数据从数据存储导出到 Bigquery 时,无法将数据追加到现有表。 您可以创建新表或覆盖现有表。无论哪种方式,您都必须从数据存储中导出所有实体或特定类型的实体,但不能仅导出新数据。

可以在此处找到可以处理从数据存储到 Bigquery 的导出数据的示例脚本。

如果要降低成本使用: - Preemtibale 实例,与普通实例相比非常便宜 -> 用于 cron 作业

我发现的另一种方法是这个。 但我不确定它是否有效,因为它是一个旧帖子,它使用MapReduce API。

最新更新