在镶木地板文件上创建蜂巢表失败了——我哪里错了



我正在将数据帧保存到镶木地板文件中。生成的模式如下所示:

org.apache.spark.sql.parquet.row.metadata{  
"type":"struct",
"fields":[  
{  
"name":"DCN",
"type":"string",
"nullable":true,
"metadata":{}
},
{  
"name":"EDW_id",
"type":"string",
"nullable":true,
"metadata":{}
},
{  
"name":"recievedTimestamp",
"type":"string",
"nullable":true,
"metadata":{}
},
{  
"name":"recievedDate",
"type":"date",
"nullable":true,
"metadata":{}
},
{  
"name":"rule",
"type":"string",
"nullable":true,
"metadata":{}
}
]}

数据帧是在spark程序中生成的;当我通过spark-submit运行它并显示数据帧时,我可以看到有几百条记录。我把df保存到镶木地板上,就像这样:

df.write.format("parquet").mode(SaveMode.Overwrite).save('/home/my/location')

在蜂箱中创建一个外部表,如下所示:

CREATE EXTERNAL TABLE schemaname.tablename (
DCN STRING,
EDW_ID STRING,
RECIEVEDTIMESTAMP STRING,
RECIEVEDDATE STRING,
RULE STRING) 
STORED AS PARQUET
LOCATION '/home/my/location';

该表正在成功创建,但没有用任何数据填充它——当我查询它时,会返回0条记录。有人能认出我做错了什么吗?这是使用Hive 1.1和Spark 1.6。

Hive需要jar文件来处理镶木地板文件。

1.首先下载parquet-live-bundle-1.5.0.jar

2.将jar路径包含到hive-site.xml中。

<property>
<name>hive.jar.directory</name>
<value>/home/hduser/hive/lib/parquet-hive-bundle-1.5.0.jar</value>
</property>

配置单元元数据存储不区分大小写,并以小写形式存储所有列名,其中as parquet按原样存储。尝试在相同的情况下重新创建配置单元表。

最新更新