如何将实时 JSON 源从 RESTful API 下沉到 BigQuery?



我想持久保存来自可公开访问的 API 的数据,该 API 在调用时返回一个 JSON 对象列表,每个对象对应过去的 N 个事件。JSON 对象的结构简单且一致。无法指定 N(据我所知(,因此需要足够频繁地轮询 API,以便数据中没有空白。我需要检查频率,但肯定每分钟不止一次。

看起来 BigQuery 并不是简单地接受 RESTful API 作为流数据源。对于 Cron,粒度似乎太细了,通常充其量是微小的(从 https://cloud.google.com/solutions/reliable-task-scheduling-compute-engine 来看,它也可能会超过配额(。是否有其他选项可以一致地轮询 RESTful API?

如果可能的话,我更喜欢涉及编码的 Python 解决方案,但我会使用我能得到的任何东西。简单地将数据获取到谷歌云存储(例如,每次调用一个JSON文档(也是可以接受的;我可以编写一个流程(数据流或其他东西(来处理重复项并将其摄取到 BigQuery 中。

我觉得这个问题一定是过去问过和回答过的,但是经过几天的搜索,我还没有找到任何东西,所以任何帮助将不胜感激!

您可以使用流式处理插入来执行此操作。使用 Python 轮询 API 后,您可以使用 BigQuery 客户端库将该数据直接流式传输到 Bigquery(下面是一个示例(。

相关内容

  • 没有找到相关文章

最新更新