我以镶木地板格式存储在hdfs中。我编写mapred来成功运行此数据,并且我想过滤map中的任何列输入,
如何在Hadoop地图中过滤任何列式镶木地板
您应该在 mr 作业配置中设置parquet.read.schema
属性,指定包含所需列的架构字符串(它是文件镶木地板架构的投影)。 当然,使用ExampleInputFormat.class
。
我一直对这个问题感到困惑,直到我阅读了源代码ParquetInputFormat.java GroupReadSuport.java
等等。ParquetInputFormat 使用请求架构进行读取。