自动提取数据并加载到BigQuery

我正在学习如何从GraphQL API中提取数据并每天将其加载到BigQuery表中。我是GCP的新手，并试图了解建立安全数据管道所需的设置。为了使常规数据提取和加载过程自动化，我执行以下步骤:

我首先使用BigQuery Python客户端库与pandas和pyarrow创建一个云函数。我正在使用下面所示的方法将数据加载到BigQuery - using BigQuery with Pandas - google-cloud-bigquery文档(googleapis.dev)。
作为触发类型，我选择了云发布/订阅。我可以知道这是否是一个很好的选择(安全和高效)的数据提取，或者我应该使用HTTP，这需要身份验证或任何其他触发器类型为我的用例。
之后，在设置中，我只设置运行时(还有其他需要配置的设置吗?)
一旦设置了上面的云函数，我将创建一个云调度器，每天午夜调用上面创建的云函数一次。在"配置执行"下，我选择目标类型为云发布/订阅并选择主题。我不理解在选择云发布/订阅主题为数据提取用例设置云调度器后需要"消息体"，但是，它是设置中的重要字段。我使用的是通用消息(类似于"hello world")。谁能纠正我，如果它有任何意义，再次为我的用例和如何最好地设置它?

如果你们中的任何人可以审查这种提取和加载数据到BQ的方法，请让我知道它是否是一个有效和安全的管道，这将非常有帮助。

非常感谢!

首先慢一点:你把两个功能混在一起了。

云功能可以通过HTTP请求触发，也可以通过Pubsub触发。当您使用带有pubsub主题的云调度器时，那里的body字段允许您输入想要添加的自定义数据。这将由云调度器发送到pubsub，当通过pubsub触发云功能时，它将获得由云调度器设置的消息。您可以使用它来根据获得的输入触发代码的不同模块。同样，它是特定于用例的。

在您的情况下，任何一种技术都可以工作。HTTP很容易，因为你只需要设置云功能与适当的服务帐户，h/w配置。部署后，使用触发器url来设置云调度器。而对于pubsub，在两者之间有一个额外的组件。

请正确阅读云功能文档。它包含关于何时使用哪个触发器的所有细节。

希望这是答案。

相关内容

最新更新

热门标签：