带有Impala的ORC文件格式



在Impala中可以使用ORC文件格式吗?此外,如何访问存储在Impala蜂窝元存储中的ORC表。可以在下面的文档链接中找到,但它不包含任何受限制的文件格式列表,也不提及黑斑羚不支持的ORC:http://www.cloudera.com/documentation/enterprise/latest/topics/impala_file_formats.html

Impala不支持ORC。相反,Apache Parquet是最佳性能的推荐格式。

Impala无法读取ORC文件格式。如果你有可能,我建议你用Hive将你的ORC文件迁移到PARQUET。优点是,你只需在设置地图减少任务时支付一次费用。

若您的ORC表的名称是可检测的,一个非常基本的查询看起来像:

CREATE TABLE nameoforctable_parquet
LIKE nameoforctable
STORED AS PARQUET
LOCATION '/your/hdfs/location';
INSERT INTO nameoforctable_parquet 
SELECT * FROM nameoforctable

尽管ORC是Hive中唯一支持ACID功能的格式,并且在一些基准测试研究中显示出更好的查询性能和压缩率,但Impala不支持ORC文件格式,因为它是由Hortonworks创建的,Hortonworks是他们的主要竞争对手之一。反之亦然,Hortonworks数据平台(HDP)上的Hive版本出于同样的原因不支持Parquet。

使用以下命令在impala中创建orc格式表:

create table orc_table_name_1 (x INT, y STRING) STORED AS orc;

相关内容

  • 没有找到相关文章

最新更新