从以orc格式存储在hdfs中的文件创建配置单元表



我想知道是否可以从以ORC格式存储在hadoop文件系统(users.tbl)中的文件创建一个配置单元表。我读到ORC格式在优化方面比文本更好。因此,我想知道是否可以使用stored as orc tblpropertieslocation属性创建一个配置单元表,以从hdfs文件创建一个表,但格式为orc。

例如:

create table if not exists users
(USERID BIGINT,
 NAME STRING,
 EMAIL STRING,
 CITY STRING)
STORED AS ORC TBLPROPERTIES ("orc.compress"="SNAPPY")
LOCATION '/tables/users/users.tbl';

文字说明:

create table if not exists users
    (USERID BIGINT,
     NAME STRING,
     EMAIL STRING,
     CITY STRING)
     ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' STORED AS TEXTFILE 
     LOCATION '/tables/users/users.tbl';

您不能只通过一个步骤就完成。createtable语句不处理数据,只指定格式和位置。

我的建议是,使用"STORED AS TEXTFILE"create语句创建一个临时表,并使用ORC作为存储格式(使用空位置)创建最终表。

然后在"ORC表"中插入临时"文本表"中的所有行。

Insert [overwrite] table orcTable select col1, col2 from textTable;

插入覆盖将用新数据替换表中的所有数据。如果你只想添加新数据,你将使用"插入表格…"

导入后,您可以删除临时"文本表"。

1.在配置单元中创建一个表。

 create table MyDB.TEST (
 Col1 String,
 Col2 String,
 Col3 String,
 Col4 String)
 STORED AS INPUTFORMAT
   'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
 OUTPUTFORMAT
    'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat';

2.将数据加载到表中。

 LOAD DATA INPATH '/hdfs/dir/folder/to/orc/files/' INTO TABLE MyDB.TEST;

只需在现有数据上创建表,如下面的

CREATE EXTERNAL TABLE mytable
(
col1 bigint,
col2 bigint
) 
STORED AS ORC
location '<ORC File location';

请参阅此链接

https://community.hortonworks.com/questions/179897/hive-table-creation-from-orc-format-file.html

在您的位置上创建表,然后使用msck repair table table_name,这样您的数据就会加载到表中,以便进行查询。

最新更新