我有一组大的xml文件,压缩在一个单独的文件中,还有许多这样的zip文件。我之前使用Mapreduce使用自定义输入格式和记录阅读器来解析xml,设置splittable=false并读取zip和xml文件。
我是Spark的新手。有人可以帮我如何防止 Spark 拆分 zip 文件并并行处理多个 zip,就像我在 MR 中所做的那样。
AFAIk !您的问题的答案由@holden提供:请看一看 !谢谢:)
我有一组大的xml文件,压缩在一个单独的文件中,还有许多这样的zip文件。我之前使用Mapreduce使用自定义输入格式和记录阅读器来解析xml,设置splittable=false并读取zip和xml文件。
我是Spark的新手。有人可以帮我如何防止 Spark 拆分 zip 文件并并行处理多个 zip,就像我在 MR 中所做的那样。
AFAIk !您的问题的答案由@holden提供:请看一看 !谢谢:)
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium