我正在尝试通过Ambari将大型csv文件(每个~4G(加载到Hive。 下面的创建表 - 加载数据过程适用于较小的 csv 文件,但不适用于如此大的 csv 文件。它不断返回服务器错误"无法获取表信息"。
我目前使用的代码是:
CREATE TABLE my_table(
id int,
text string )
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
和
LOAD DATA INPATH 'mypath/INPUT.csv' OVERWRITE INTO TABLE my_table;
有没有更好的方法来上传大型csv文件?
提前致谢
您能否通过不提及文件格式(文本(来创建表格。
CREATE TABLE my_table(
id int,
text string )
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';
然后,您能否将文件上传到创建表的其他位置。那么,您可以尝试使用加载数据路径查询吗?
首先创建表,然后运行show create table my_table;
在这里,您会看到表的结构,其中还提到了该表的hdfs location
。 在该HDFS路径上,将要加载的文件放入表中。