我有一个配置单元查询
从tbl中选择*,其中月份(dt)="06",年份(dt)="2011"
我想知道如果我在一年和一个月都加入俱乐部,并为相同的添加一个新的udf,是否会有任何好处
从tbl中选择*,其中yearMonth(dt)="201106"
我是Hive的新手,因此非常欢迎我是否需要使用新的UDF。
hive是否按顺序执行结果,第一个过滤器为2011,结果过滤器为06?
映射器应该在一步中对数据执行两个过滤器
您总是可以使用explain
语句来检查这一点
如果您通常根据年份和月份进行筛选,则应该考虑根据这些列对表进行分区。这样,映射器将只读取相关的分区,而不是整个表。