如何存储1+万亿量级的数据点?



所以,我有以下格式的天文光谱数据:

{
"molecule": "CO2",
"blahblah": 

"5 more simple fields"
"arrayofvalues": [lengths can go up to 2 million]
}

的数据,我有60万个文件,这意味着我要搜索1万亿个单独的数据点,并进行计算。

所以有人能告诉我也许bigData或bigQueries的来源,我如何能有效地查找这些数据的计算和绘图?例如,我想搜索某些分子,在某些条件下,它们显示什么数据等。

我想做一个网站,人们可以选择一些变量,和一个值范围,并获得图形或文本数据。

现在我试着把这些东西放在PostgresQL上,但很明显,当我做一个get请求时,(甚至只存储5个文件)它会崩溃邮差,因为它的数据太多了。

在不了解更多细节的情况下,您可以利用bigquery中可用的数据建模选项,例如:

嵌套数据
  • 数组和结构
  • 分区表
  • 集群

看一下数据类型:https://cloud.google.com/bigquery/docs/reference/standard-sql/data-types

以及分区和聚类技术

https://towardsdatascience.com/how-to-use-partitions-and-clusters-in-bigquery-using-sql-ccf84c89dd65?gi=cd1bc7f704cc

最新更新