直接在Databricks中查询和验证,或者转换为db以更快地查询



我们有10GB的csv文件,在普通机器中读取csv文件并进行验证是相当困难的,因此我们决定选择数据块来执行相同的操作。

我的10GB文件数据,每周更改一次。这意味着我们每周上传一次10GB的数据文件,以备任何更改

我们经常收到客户要求验证的请求,我们必须尽快处理并提供结果。

Option1:

1. Make Databricks cluster always run, 
2. For every client request 
# Run Job
# get validation output from Databricks itself

Option2:

1.Perform query and upload all data to database. 
# run job (upload to DB)
# terminate/stop cluster (since weekly one time excution). Databricks has option on-demand. 
2. for every client request directly make query to database and perform validation. 

在我的用例方法1或2中,什么是成本和性能有效的解决方案?还是两种方法都不好使用其他标准方法来达到相同的效果?

我对大数据和数据块不太了解,如果需要详细说明,请告诉我。我也有兴趣学习如何实际解决工业问题。

如果数据在特定时间更改,则将验证过程作为JOB(特定时间)触发。

如果您的数据预计在任何时间到达,并且必须在收到数据后立即处理,那么JOB集群需要一直运行。

如果有任何延迟的回旋余地,那么您可以每'n' hr(s)调度JOB,这样您可以节省资金,并且数据将在下一个'n' hr(s)中处理。

根据你的选择,你可以使用Databricks的new COPY INTO语句,这将被读取,只有新的文件。

注意:与其按原样上传CSV文件,不如尝试将其压缩,这样可以节省一些存储费用,并且处理速度更快,资源更少。

成本效益是一个灰色地带,您需要根据您的用例找到最佳点。(试错)

最新更新