为列表中的多个 ID 并行运行 Spark sql 查询



我有一个列表,假设

ids = ['K50', 'K51', 'K51', 'P41', 'P41', 'P42']  

我需要实现的目标 -

  1. 从列表中获取每个 ID
  2. 从每个站点的配置单元表(例如表A(中获取数据。
  3. 透视该数据的一些值。
  4. 写入每个 id 的镶木地板文件。

注意 - 我需要为列表中的每个 id 并行运行此作业。

我看了几个帖子,但没有找到任何具体的解决方案。如何在 pyspark 中解决此问题?

火花版本 - 2.4.3

您需要根据密钥重新分配数据。我已经使用分发密钥和集群实现了这一点。检查下面的网址。你会发现很多关于这个主题的博客。

https://deepsense.ai/optimize-spark-with-distribute-by-and-cluster-by/ 

最新更新