我是我的新角色,其中一部分需要在托管和外部配置单元表中创建/插入数据。我们有几行"设置"参数,这些参数是在配置单元会话开始时运行的,但我遇到过一些情况,例如,某些分区(数量很少的文件(的文件被合并,而其他分区(许多较小的文件(则不被合并,似乎是在随机的日子里。
我的问题是:什么时候需要输入我的所有蜂巢集参数?是否需要对我运行的每一个插入/命令/语句都执行此操作?还是在我启动Hive时,在Hive会话开始时只进行一次?
这些是我们一直在使用的标准设置参数:
SET mapred.job.queue.name=yometrics;
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.max.dynamic.partitions=2000;
SET hive.exec.max.dynamic.partitions.pernode=2000;
SET hive.merge.tezfiles=true;
您可以将配置放在文件的开头,它将适用于整个会话。
或者,您可以将公共参数放在单独的文件params.hql
中,并在每个脚本中调用
CCD_ 2。
也可以将它们放在hive-site.xml
中
如果你在Qubole/AWS上,你也可以使用引导程序:https://docs.qubole.com/en/latest/user-guide/hive/bootstrap-script.html