如何从另一个 BigQuery 数据集创建 BigQuery 数据集?



我需要了解以下内容:

1.( 一个 BigQuery 如何连接到另一个 BigQuery,并应用一些逻辑并创建另一个 BigQuery。例如,如果我有一个像Data Stage这样的ETL工具,并且我们上传了一些数据供我们以BigQuery的形式使用。因此,在 DataStage 或使用任何其他技术中,我如何设计作业,以便源是一个 BQ,目标是一个 BQ。

2.(我想实现我的输入将是一个视图(BigQuery(,然后需要在BigQuery视图上运行一些逻辑,然后加载到另一个BigQuery视图中。

3.(用于将一个BigQuery连接到另一个BigQuery的技术是什么,是https还是任何其他技术。

谢谢

如果要处理大量数据(许多 GB(,则应直接在大查询数据库中进行数据转换。 提取所有数据,在本地运行它,然后将其发回会非常慢。除了访问相关数据之外,您不需要任何外部技术来使一个视图依赖于另一个视图。

理想的作业设计将是大查询可以处理的SQL查询。如果尝试跨不同项目链接表/视图,则必须在 SQL 查询的FROM子句中以完全指定的形式projectName.datasetName.tableName列出源 BQ 表。项目名称在 Google Cloud 中是全局唯一的。

必须正确设置访问数据的权限。 BQ 提供了对谁可以访问的精细控制,它位于 BQ 文档中。 如果合适,您还可以为所有 BQ 用户启用公共访问。

获得该 SQL 查询后,您可以通过命令行(bq 工具(、Web 控制台或 API 将 SQL 发送到 Google BigQuery,从而创建新视图。

1( 您可以在 DataStage 中使用 BigQuery Connector 来读取和写入 bigquery。

2( Bigquery 使用格式为 project.dataset.table 的命名空间来跨项目访问表。这允许您在 GCP 中操作数据,就像在同一数据库中一样。

要操作数据,您可以使用 DML 或标准 SQL。

要执行查询,您可以使用 GCP Web 控制台或客户端库(如 python 或 java(。

3(BigQuery是一个RESTful Web服务,使用HTTPS