如何在 hadoop mapReduce 中过滤任何列镶木地板



我以镶木地板格式存储在hdfs中。我编写mapred来成功运行此数据,并且我想过滤map中的任何列输入,

如何在Hadoop地图中过滤任何列式镶木地板

您应该在 mr 作业配置中设置parquet.read.schema 属性,指定包含所需列的架构字符串(它是文件镶木地板架构的投影)。 当然,使用ExampleInputFormat.class

我一直对这个问题感到困惑,直到我阅读了源代码ParquetInputFormat.java GroupReadSuport.java等等。ParquetInputFormat 使用请求架构进行读取。

相关内容

  • 没有找到相关文章

最新更新