如何从具有类似命名模式的多个 Hive 表中查询数据



这是我进入Hive的处女航。我有多个 Hive 表,例如名称如下的快照:

revenue_20110131
reveue_20110228
revenue_20110331
purchases_qrt1
purchases_qrt2
purchases_qrt3
purchases_qrt4

我有很多这样的快照表。现在,我需要构建一个脚本,该脚本将表名的一部分作为参数,并从所有此类名称相似的表中读取记录,并将所有这些表中的全部数据导出到单个 ORC 文件中。

如何在蜂巢中执行此操作?我不知道从哪里开始,因为我以前从未在Hive上工作过。有人可以帮我吗?提前谢谢,伙计们。

如果表的位置有共同的上部子目录,则可以使用上层目录创建新表,并在单选中选择所有表。

create table new tbl 
...
location 'upper common directory path here'

然后在选择之前添加这些设置:

set hive.mapred.supports.subdirectories=TRUE;
set mapred.input.dir.recursive=TRUE;

最新更新