我有一个列表,假设
ids = ['K50', 'K51', 'K51', 'P41', 'P41', 'P42']
我需要实现的目标 -
- 从列表中获取每个 ID
- 从每个站点的配置单元表(例如表A(中获取数据。
- 透视该数据的一些值。
- 写入每个 id 的镶木地板文件。
注意 - 我需要为列表中的每个 id 并行运行此作业。
我看了几个帖子,但没有找到任何具体的解决方案。如何在 pyspark 中解决此问题?
火花版本 - 2.4.3
您需要根据密钥重新分配数据。我已经使用分发密钥和集群实现了这一点。检查下面的网址。你会发现很多关于这个主题的博客。
https://deepsense.ai/optimize-spark-with-distribute-by-and-cluster-by/