在 Spark 中读取压缩的 xml 文件



我有一组大的xml文件,压缩在一个单独的文件中,还有许多这样的zip文件。我之前使用Mapreduce使用自定义输入格式和记录阅读器来解析xml,设置splittable=false并读取zip和xml文件。

我是Spark的新手。有人可以帮我如何防止 Spark 拆分 zip 文件并并行处理多个 zip,就像我在 MR 中所做的那样。

AFAIk !您的问题的答案由@holden提供:请看一看 !谢谢:)

相关内容

  • 没有找到相关文章

最新更新