将JSON数据从Google Analytics保存到关系数据库的最佳方法



我正在寻找将Google Analytics数据并行加载到关系数据库中的最有效方法,这些数据以具有嵌套对象结构的JSON文件表示,以便以后收集和分析此统计信息。

我发现了pandas.io.json.json_normalize可以将嵌套数据扁平化为平面结构的方法,还有一个 pyspark 解决方案,可以将 json 转换为数据帧,如此处所述,但不确定性能问题。

你能描述一下将数据从Google Analytics API加载到RDBMS的最佳方法吗?

我认为当我们有更多关于你想要使用什么数据以及如何使用它们的上下文时,这个答案可以得到最好的回答。例如,如果您只使用所有可用字段中的几个 - 那么仅存储这些字段是有意义的,或者如果您将使用某个特定字段作为索引,那么也许我们也可以索引该字段。

我可以从头顶上回忆起的一件事是JSON type of Postgres,因为它是内置的,并且有几个辅助方法可以在以后进行操作。

引用:

  • https://www.postgresql.org/docs/9.3/datatype-json.html
  • https://www.postgresql.org/docs/9.3/functions-json.html

如果您可以在此处更新您做出的决定 - 很高兴知道。

最新更新