小贝子编程

为列表中的多个 ID 并行运行 Spark sql 查询

本文关键字：运行并行 Spark sql 查询 ID 列表 apache-spark pyspark azure-databricks
更新时间 : 2023-09-14
英文 : Run a spark sql query in parallel for multiple ids in a list

我有一个列表，假设

ids = ['K50', 'K51', 'K51', 'P41', 'P41', 'P42']

我需要实现的目标 -

从列表中获取每个 ID
从每个站点的配置单元表(例如表A(中获取数据。
透视该数据的一些值。
写入每个 id 的镶木地板文件。

注意 - 我需要为列表中的每个 id 并行运行此作业。

我看了几个帖子，但没有找到任何具体的解决方案。如何在 pyspark 中解决此问题？

火花版本 - 2.4.3

您需要根据密钥重新分配数据。我已经使用分发密钥和集群实现了这一点。检查下面的网址。你会发现很多关于这个主题的博客。

https://deepsense.ai/optimize-spark-with-distribute-by-and-cluster-by/

最新更新

如何停止旅行计划:在Windows 10的本地计算机上运行
r语言 - 使用for循环和数据框架从vector中提取元素
为什么控制台.log在我单击按钮后再次打印状态，即使状态的值没有更改？
获取文本框中按钮的值
带有垫子形式的 Angular 无法编译：ngcc 无法在 parse5@5.1.1 上运行
Google登录认证按钮不工作，Firebase
在bash中查找右括号
密码加强脚本-如何大写第一个字母，并将整数列表追加到文件中的文本末尾，并重复列出它
我如何使用相同的布局为每个页面，但改变内容组件通过URL路由在Next.js?
r语言 - 如何导入和绑定多个带有多个选项卡的Excel(名称常见)
Jetpack Compose与Paging 3产生太多的网络请求
当我们设置git reset -soft时，历史记录会发生什么?
我们可以调用firebase作为服务器吗?
发送Post请求时出现启动错误，收到不支持的媒体类型415错误
JPA继承问题与ObjectDB -字段未发现类型错误
插件部分中的依赖树
简单的GUI应用程序
woocommerce在结帐页面上自动登录，只需使用billing_email
X509Certificate2.Verify()运行错误，但证书正在工作
BinanceAPIExceptionError: APIError(code=-2015): Invalid API-
Python Scrapy代码从网站提取第一封电子邮件
我试图使用Plotly在python中创建一个地图图，但我的数据没有被导入或不能正常工作
JPA储存库.save在Netty服务器channelInitializer处理程序不工作
通常在kafka模式注册表中注册动态protobuf模式
如何使用窗口提示符作为货币反应
如何获得光标位置悬停在GTK-rs绘图区域?
Angular 12的数据绑定问题
使用Scapy和无线网卡扫描网络-网络不通错误
Amplify GraphQL DataStore : auth rules: groupsField being ig
Svelte自定义元素更新不工作

为列表中的多个 ID 并行运行 Spark sql 查询

相关内容

最新更新

热门标签：