带有斑点数据的蜂巢外部表未选择数据



我的外部表带有镶木木。这里没有使用压缩。我正在使用SPARK作业将数据(Parquet文件(写入HDFS目录。但是,当我尝试从表中选择数据时,我不会出现以下错误/警告和输出。我相信这是一个普遍的问题。请让我知道如何克服这个?

蜂巢-1.2.1000.2.5.0.0.0-1245HDP -2.5.0.0-1245火花版1.6.2

2017年6月1日下午5:04:27警告:org.apache.parquet.corruptstatistics:忽略统计信息,因为无法解析Create_by(请参阅Parquet-251(:Parquet-Mr版本1.6.0 org.apache.parquet.versionparser $ versionParseException:无法使用格式使用parse-mr版本1.6.0使用格式:(。 (版本((。((?(构建?(( atrg.apache.parquet.versionparser.parse(versionparser.java:112( 请访问org.apache.parquet.corruptstatistics.shouldignorestatistics(rustalstatistics.java:60( at rog.apache.parquet.format.converter.parquetmetadatataconverter.fromparquetstatistics(parquetmetadatataconverter.java:263(

>

看来,由于Spark作业中使用的镶木quet作者版本和用于蜂巢中的镶嵌作者是不同的,而且它们之间存在差距。在这里,我们可以在Hive中看到用于阅读的版本是Parquet-Mr版本1.6.0

现在,如果有人能告诉我如何更改Spark作业中使用的镶木木拼写版本或如何更改Hive Parquet Reader版本,我可以尝试解决此问题。

您看到的例外是无害的。

最新更新