使用many-where子句配置性能



我有一个配置单元查询

从tbl中选择*,其中月份(dt)="06",年份(dt)="2011"

我想知道如果我在一年和一个月都加入俱乐部,并为相同的添加一个新的udf,是否会有任何好处

从tbl中选择*,其中yearMonth(dt)="201106"

我是Hive的新手,因此非常欢迎我是否需要使用新的UDF。

hive是否按顺序执行结果,第一个过滤器为2011,结果过滤器为06?

映射器应该在一步中对数据执行两个过滤器
您总是可以使用explain语句来检查这一点
如果您通常根据年份和月份进行筛选,则应该考虑根据这些列对表进行分区。这样,映射器将只读取相关的分区,而不是整个表。

最新更新