火花小兽人条纹

我们使用Spark来平展点击流数据，然后以ORC + zlib格式将其写入S3，我尝试更改Spark中的许多设置，但创建的ORC文件的结果条带大小仍然非常小(<2MB)

到目前为止我尝试减小条纹大小的事情，

早些时候每个文件的大小为 20MB，使用 coalesce 我现在正在创建大小为 250-300MB 的文件，但每个文件仍然有 200 个条带，即每个条带 <2MB

尝试通过将 hive.exec.orc.default.stripe.size 设置为 67108864 来使用 hivecontext 而不是 sparkcontext，但 Spark 不遵循这些参数。

所以，关于如何增加正在创建的 ORC 文件的条带大小的任何想法？因为小条带的问题是，当我们使用 Presto 查询这些 ORC 文件并且条带大小小于 8MB 时，Presto 将读取整个数据文件而不是查询中的选定字段。

Presto 条纹问题相关线程：https://groups.google.com/forum/#!topic/presto-users/7NcrFvGpPaA

我已经在HDP社区平台上发布了同样的问题，并得到了以下回复，

"它与HIVE-13232有关(在Hive 1.3.0,2.0.1,2.1.0中修复)，但所有Apache Spark仍然使用Hive 1.2.1库。

你能试试HDP 2.6.3+(2.6.4是最新的)。HDP Spark 2.2 具有固定的配置单元库。

相关内容