火花小兽人条纹



我们使用Spark来平展点击流数据,然后以ORC + zlib格式将其写入S3,我尝试更改Spark中的许多设置,但创建的ORC文件的结果条带大小仍然非常小(<2MB)

到目前为止我尝试减小条纹大小的事情,

早些时候每个文件的大小为 20MB,使用 coalesce 我现在正在创建大小为 250-300MB 的文件,但每个文件仍然有 200 个条带,即每个条带 <2MB

尝试通过将 hive.exec.orc.default.stripe.size 设置为 67108864 来使用 hivecontext 而不是 sparkcontext,但 Spark 不遵循这些参数。

所以,关于如何增加正在创建的 ORC 文件的条带大小的任何想法? 因为小条带的问题是,当我们使用 Presto 查询这些 ORC 文件并且条带大小小于 8MB 时,Presto 将读取整个数据文件而不是查询中的选定字段。

Presto 条纹问题相关线程:https://groups.google.com/forum/#!topic/presto-users/7NcrFvGpPaA

我已经在HDP社区平台上发布了同样的问题,并得到了以下回复,

"它与HIVE-13232有关(在Hive 1.3.0,2.0.1,2.1.0中修复),但所有Apache Spark仍然使用Hive 1.2.1库。

你能试试HDP 2.6.3+(2.6.4是最新的)。HDP Spark 2.2 具有固定的配置单元库。

最新更新