Hive中的动态分区



我是蜂巢的新手。我的输入文件格式为(ID,日期(YYYY-MM-DD),小时(HH),键,值)。表按(日期,小时)进行分区输入文件包含7天(每天24小时)的数据。当我将这些数据加载到配置单元表中时,我需要将数据加载到表的各个分区中。有人能帮我吗。

谢谢,Sudhakar。

一种方法是首先将数据加载到未分区的表中(例如,下面示例中的tmp_some_table)。然后你可以做一些类似的事情:

  set hive.exec.dynamic.partition=true;
  set hive.exec.dynamic.partition.mode=nonstrict;
  from tmp_some_table tt
  insert overwrite table some_table partition(day, hour)
  select
    id,
    key,
    value, 
    day,
    hour

分区必须是select子句中的最后一列。以上内容适用于蜂窝0.7.1。有关详细信息,请参阅wiki。请注意,如果分区过多,则会出现错误。

相关内容

  • 没有找到相关文章

最新更新