读取 Hive 表并将其转换为镶木地板表

数据

来自Hive表，更准确地说

第一个表具有以下属性

Serde Library   org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe  
InputFormat org.apache.hadoop.mapred.SequenceFileInputFormat    
OutputFormat    org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat

此表应转换为具有镶木地板并具有属性

Serde Library   org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe 
InputFormat org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat   
OutputFormat    org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat

执行以下 Scala Spark 代码：

val df = spark.sql("SELECT * FROM table")
df.write.format("parquet").mode("append").saveAsTable("table")

这仍然导致不需要的属性：

Serde Library   org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe  
InputFormat org.apache.hadoop.mapred.SequenceFileInputFormat    
OutputFormat    org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat

希望有人可以帮助我

不能在同一

表中混合使用不同的文件格式，也不能更改包含数据的表的文件格式。（更准确地说，你可以执行这些操作，但 Hive 和 Spark 都无法读取格式与元数据不匹配的数据。

您应该将数据写入新表，确保它符合您的期望，然后重命名或删除旧表，最后将新表重命名为旧名称。例如：

CREATE TABLE new_table STORED AS PARQUET AS SELECT * FROM orig_table;
ALTER TABLE orig_table RENAME TO orig_table_backup;
ALTER TABLE new_table RENAME TO orig_table;

可以直接在 Hive 会话中执行这些 SQL 语句，也可以使用spark.sql(...)语句（逐个）从 Spark 执行这些 SQL 语句。

相关内容

最新更新

热门标签：