直接在Databricks中查询和验证，或者转换为db以更快地查询

我们有10GB的csv文件，在普通机器中读取csv文件并进行验证是相当困难的，因此我们决定选择数据块来执行相同的操作。

我的10GB文件数据，每周更改一次。这意味着我们每周上传一次10GB的数据文件，以备任何更改

我们经常收到客户要求验证的请求，我们必须尽快处理并提供结果。

Option1:

1. Make Databricks cluster always run, 
2. For every client request 
# Run Job
# get validation output from Databricks itself

Option2:

1.Perform query and upload all data to database. 
# run job (upload to DB)
# terminate/stop cluster (since weekly one time excution). Databricks has option on-demand. 
2. for every client request directly make query to database and perform validation.

在我的用例方法1或2中，什么是成本和性能有效的解决方案?还是两种方法都不好使用其他标准方法来达到相同的效果?

我对大数据和数据块不太了解，如果需要详细说明，请告诉我。我也有兴趣学习如何实际解决工业问题。

如果数据在特定时间更改，则将验证过程作为JOB(特定时间)触发。

如果您的数据预计在任何时间到达，并且必须在收到数据后立即处理，那么JOB集群需要一直运行。

如果有任何延迟的回旋余地，那么您可以每'n' hr(s)调度JOB，这样您可以节省资金，并且数据将在下一个'n' hr(s)中处理。

根据你的选择，你可以使用Databricks的new COPY INTO语句，这将被读取，只有新的文件。

注意:与其按原样上传CSV文件，不如尝试将其压缩，这样可以节省一些存储费用，并且处理速度更快，资源更少。

成本效益是一个灰色地带，您需要根据您的用例找到最佳点。(试错)

相关内容

最新更新

热门标签：