通过 Ambari 将大型 csv 文件加载到 Hive



我正在尝试通过Ambari将大型csv文件(每个~4G(加载到Hive。 下面的创建表 - 加载数据过程适用于较小的 csv 文件,但不适用于如此大的 csv 文件。它不断返回服务器错误"无法获取表信息"。

我目前使用的代码是:

CREATE TABLE my_table( id int, text string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

LOAD DATA INPATH 'mypath/INPUT.csv' OVERWRITE INTO TABLE my_table;

有没有更好的方法来上传大型csv文件?

提前致谢

您能否通过不提及文件格式(文本(来创建表格。

CREATE TABLE my_table(
id int, 
text string )
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

然后,您能否将文件上传到创建表的其他位置。那么,您可以尝试使用加载数据路径查询吗?

首先创建表,然后运行show create table my_table;

在这里,您会看到表的结构,其中还提到了该表的hdfs location。 在该HDFS路径上,将要加载的文件放入表中。

最新更新