由于数据的大小,这个问题与我在stackoverflow上发现的不同,它不是重复的。
我们正在使用Cloudera。
我看到了标题中只有少数列的小型xlsx文件的解决方案,在我的情况下,要加载到新配置单元表中的csv文件有618列。
-
如果我通过HUE->文件浏览器上传(先保存到csv(,它会默认保存为镶木地板吗?如果没有,在哪里可以指定文件格式?
-
根据该位置创建外部Impala表的最佳方式是什么?如果我需要手动创建DDL/schema,那肯定是难以置信的,因为有这么多列。
非常感谢。
答案:
- 文本文件是通过配置单元表生成的默认文件格式。但它可以在
hive.default.fileformat
中配置,也可以在创建表时显式提及它。您可以将CSV文件上传到HDFS中所需的任何目录中。一旦数据在HDFS中,您就可以在CSV数据上创建一个表。创建表格时,可以指定格式 - 使用"色调"创建表格。它根据CSV文件中的标题行动态生成列名。它假定每个字段都是字符串数据类型。我们需要明确地处理数据类型。一旦在
hive metastore
中创建了可通过Hive和Impala查询使用的表
这篇文章将提供一个良好的开端:http://gethue.com/hadoop-tutorial-create-hive-tables-with-headers-and/
简而言之,将数据移动到(如下所示(
HDFS=>使用Hue创建表(注意数据类型(=>现在查询数据使用Impala编辑器。