基于 HDFS 上标头中有 618 列的 CSV 文件创建外部配置单元表的最佳实践是什么?



由于数据的大小,这个问题与我在stackoverflow上发现的不同,它不是重复的。

我们正在使用Cloudera。

我看到了标题中只有少数列的小型xlsx文件的解决方案,在我的情况下,要加载到新配置单元表中的csv文件有618列。

  1. 如果我通过HUE->文件浏览器上传(先保存到csv(,它会默认保存为镶木地板吗?如果没有,在哪里可以指定文件格式?

  2. 根据该位置创建外部Impala表的最佳方式是什么?如果我需要手动创建DDL/schema,那肯定是难以置信的,因为有这么多列。

非常感谢。

答案:

  • 文本文件是通过配置单元表生成的默认文件格式。但它可以在hive.default.fileformat中配置,也可以在创建表时显式提及它。您可以将CSV文件上传到HDFS中所需的任何目录中。一旦数据在HDFS中,您就可以在CSV数据上创建一个表。创建表格时,可以指定格式
  • 使用"色调"创建表格。它根据CSV文件中的标题行动态生成列名。它假定每个字段都是字符串数据类型。我们需要明确地处理数据类型。一旦在hive metastore中创建了可通过Hive和Impala查询使用的表

这篇文章将提供一个良好的开端:http://gethue.com/hadoop-tutorial-create-hive-tables-with-headers-and/

简而言之,将数据移动到(如下所示(

HDFS=>使用Hue创建表(注意数据类型(=>现在查询数据使用Impala编辑器。

相关内容

  • 没有找到相关文章

最新更新