小贝子编程

使用Spark SQL和Hive编写相同的ORC数据，为什么Spark SQL文件比Hive大50%

本文关键字：Hive SQL Spark 文件 ORC 使用数据 apache-spark apache-spark-sql orc
更新时间 : 2023-09-18
英文 : Write same ORC data using Spark SQL and Hive, why Spark SQL file is 50% larger than hive？

运行相同的sql，hive生成的文件是2.5G，而spark sql生成的文件则是4.1G。我已经将spark.sql.org.compress.codec设置为zlib，这是我们在hive中使用的，并将spark.ql.org.impl设置为hive，我的spark版本是2.4.0

很抱歉我的问题不够清楚，因为sql很大，超过500行，而且对业务敏感。

无论如何，经过调查，我发现问题是由MR/Spark shuffle差异引起的：MR排序在reduce中，而Spark没有。排序后的数据对游程编码非常友好。

最新更新

React测试库:fireEvent更改不工作
ASP.. NET Core:在Program.cs中控制版本依赖注入
在 C 中，'int *'是派生数据类型吗？
Swing JFileChooser只接受ZIP和Directory
这样定义react组件的原因是什么?
向3d numpy数组添加行向量
AWS ECS Service Connect versus Service Discovery
根据MongoDB中的条件获取下一个和上一个文档
是否有办法使一个正在运行的进程处于D状态或Z状态?
使用最新版本的d3-path配置jest
为什么我的复制和粘贴代码出现"Object Required"错误？
模型元类与模型形式元类有何不同?
可以在不更改对象构造函数的情况下向对象构造函数添加新的动态参数吗
对于下面的CNN模型，我们需要优化多少个模型参数?
typescript Redis客户端在类的构造函数?
无法从带有Java进程的Docker控制台分离
我可以列出一个数字，如果类实例在一个数组?
显示一次登录屏幕
如何获取defaultColDef中正在处理的单元格的列索引.网格中的cellClass
具有多个worker的可迭代pytorch数据集
如何在刀片模板内编写PHP代码
BIM360提交API文档
React Native API FETCH每个对象的不同名称
如何在Linux mongosh命令行上指定数据库以及身份验证
GitHub Actions CodeQL初始化操作失败
不和谐.js "cannot read properties of undefined"尝试将事件处理程序放入单独的文件中时
Woocommerce如何将钩子中的函数转换为短代码
Oracle SELECT每个不同的列对每个不同的列
将复选框的字符串转换为布尔值
不能使用函数查找数组部分的和(javascript)

使用Spark SQL和Hive编写相同的ORC数据，为什么Spark SQL文件比Hive大50%

相关内容

最新更新

热门标签：