自动提取数据并加载到BigQuery



我正在学习如何从GraphQL API中提取数据并每天将其加载到BigQuery表中。我是GCP的新手,并试图了解建立安全数据管道所需的设置。为了使常规数据提取和加载过程自动化,我执行以下步骤:

  • 我首先使用BigQuery Python客户端库与pandas和pyarrow创建一个云函数。我正在使用下面所示的方法将数据加载到BigQuery - using BigQuery with Pandas - google-cloud-bigquery文档(googleapis.dev)。
  • 作为触发类型,我选择了云发布/订阅。我可以知道这是否是一个很好的选择(安全和高效)的数据提取,或者我应该使用HTTP,这需要身份验证或任何其他触发器类型为我的用例。
  • 之后,在设置中,我只设置运行时(还有其他需要配置的设置吗?)
  • 一旦设置了上面的云函数,我将创建一个云调度器,每天午夜调用上面创建的云函数一次。在"配置执行"下,我选择目标类型为云发布/订阅并选择主题。我不理解在选择云发布/订阅主题为数据提取用例设置云调度器后需要"消息体",但是,它是设置中的重要字段。我使用的是通用消息(类似于"hello world")。谁能纠正我,如果它有任何意义,再次为我的用例和如何最好地设置它?

如果你们中的任何人可以审查这种提取和加载数据到BQ的方法,请让我知道它是否是一个有效和安全的管道,这将非常有帮助。

非常感谢!

首先慢一点:你把两个功能混在一起了。

云功能可以通过HTTP请求触发,也可以通过Pubsub触发。当您使用带有pubsub主题的云调度器时,那里的body字段允许您输入想要添加的自定义数据。这将由云调度器发送到pubsub,当通过pubsub触发云功能时,它将获得由云调度器设置的消息。您可以使用它来根据获得的输入触发代码的不同模块。同样,它是特定于用例的。

在您的情况下,任何一种技术都可以工作。HTTP很容易,因为你只需要设置云功能与适当的服务帐户,h/w配置。部署后,使用触发器url来设置云调度器。而对于pubsub,在两者之间有一个额外的组件。

请正确阅读云功能文档。它包含关于何时使用哪个触发器的所有细节。

希望这是答案。

相关内容

  • 没有找到相关文章

最新更新