小贝子编程

设置同一个Spark作业中每次shuffle的shuffle分区数

本文关键字：shuffle 分区同一个 Spark 作业设置 dataframe apache-spark apache-spark-sql
更新时间 : 2023-09-23
英文 : Setting number of shuffle partitions per shuffle in the same Spark job

是否有一种方法，在相同的Spark应用程序甚至相同的作业中，为每次shuffle指定不同数量的shuffle分区，而不是为所有的shuffle分区指定全局数量?

也就是说，可以

spark.sql.shuffle.partitions

可以动态设置为每个涉及变换的DataFrame转换的不同值吗?

这适用于这样的场景:作业是一个大DAG，一些shuffle输出可能很小，而另一些则非常大。

谢谢!

当然可以。

在JOIN或Aggregation之前发出命令sqlContext.setConf("spark.sql.shuffle.partitions", "nnn")。但是对查询的广播散列连接方面没有影响。

试着看看。

最新更新

在Shopify中隐藏折扣代码输入字段
无法导入外部 NPM 包来制作角度库
掩码输入字段的长度验证
用点分隔符分隔列
在Mac上将Xerces库构建为通用二进制文件的问题
在同级组件之间使用共享服务共享数据，在Angular中返回空
为什么我的 C 结构在输入中没有获取任何数据？
org.keycloak.adapters.springboot.KeycloakSpringBootConfigResolver 不存在
为一个非常大的数据库优化SPARQL查询
Python线程请求计数
将结果保存为pyspark多输出循环中的数据帧
这两个数组的区别是什么?
如何在主线程上运行async await
React Native FlatList ListEmptyComponent总是显示，即使不是空的
Android Emulator未在M1上运行
我的' collate_fn '函数在传递给Trainer函数的collate_fn参数时得到空数据
访问documentRoot以外的所有图像，而不是Apache windows
如何从React或Javascript中的对象属性中获取值
Redux工具箱:从切片文件导出一个自定义钩子来访问动作，而不是导出所有的动作，然后再次调用调度? &
CSS难题:孩子们总是闯入多行
贴现率，公式
使用 Javascript 的嵌套数组循环生成和排序所有象限中 (0,0) 周围的笛卡尔坐标
如何在Windows上添加现有的mysql模式
从Google VPS中恢复删除的文件夹
ffmpeg/映射代码的几个输出
r语言 - 在部署到shinyapps.io的Shiny应用中使用readClipboard()的问题 &
如何适应事件SelectionChange代码在事件计算工作?
类型错误：.map 不是一个函数不明白出了什么问题
在Rust中定义无限嵌套HashMap
为什么有些符号表达式没有简化？

设置同一个Spark作业中每次shuffle的shuffle分区数

相关内容

最新更新

热门标签：