小贝子编程

dataFrameWriter partitionBy是否打乱数据

本文关键字：数据是否 partitionBy dataFrameWriter apache-spark hadoop apache-spark-sql hdfs partitioning
更新时间 : 2023-08-24
英文 : Does dataFrameWriter partitionBy shuffle the data?

我已经用一种方式对数据进行了分区，我只想用另一种方式对数据进行分区。所以它基本上是这样的:

sqlContext.read().parquet("...").write().partitionBy("...").parquet("...")

我想知道这是否会触发shuffle或所有数据将在本地重新分区，因为在这种情况下，分区只是指HDFS中的一个目录，而来自同一分区的数据不必在同一节点上才能在HDFS的相同目录中写入。

partitionBy和bucketBy都不洗牌数据。但是，在某些情况下，首先重新分区数据可能是一个好主意:

df.repartition(...).write.partitionBy(...)

否则，输出文件的数量由分区数*分区列的基数限制。

最新更新

新的r，抓取列值时，知道另一个
使用Accord.Video.FFMPEG，我得到了"parameter is not valid exception"。我该如何解决？
c -如何获得exec()的输出?
r语言 - 我如何将我的数据帧从宽格式转换为长格式，在不同的时间记录变量?
如何在boost multi_array容器中存储值?
单独的页面vs更新同一页面上的组件
如何创建唯一索引，这需要一组属性是唯一的?
如何触发按钮与键盘和活动
验证中的问题
在java中用空格替换撇号
将请求发送到多环境公共包中的适当API
r语言 - 当变量由几个部分组成时，将 tibble 转换为长格式
返回填充空值的每个月的最新值
如何在循环内外使用来自user的输入变量
如何通过从网站的前端发出 ajax 请求(在同一域上内置 react )来获取 wordpress 中的当前用户 ID
标记器更改词汇表条目
python请求和concurrent.futures问题
删除新提要中不存在的旧行
如何在颤振中将可变大小的小部件剪辑为固定大小?
限制安排数量
在r的嵌套列表内计算
JavaScript使用自定义布尔值对日期排序
Quarkus K8S操作器-运行测试时NoSuchField异常
从抓取数据中重新格式化字符串以满足关键字参数
PHP setCookie的子域在前端不是相同的子域
如何更改Kubeflow管道循环运行的参数?
是否有一种方法可以有条件地注册类型作为.net依赖注入的回退?
是否有一个库来创建时间间隔来检查是否给定时间在python中命中它们
Regex-空格无法获得整数值
模式改变时数据插入到增量表中

dataFrameWriter partitionBy是否打乱数据

相关内容

最新更新

热门标签：