我有一个看起来无害的Hive查询,它从一个表中获取一些数据以覆盖到另一个表中。源表和目标表都已分区。目标表也是聚集的。
此查询生成 4 个 MR 作业,最后一个作业在缩减阶段总是花费异常长的时间。我尝试增加减速器的数量,但这没有帮助。在深入观察时,我注意到指定的 130 个化简器中有 1 个(最初是默认的 26 个化简器中的 1 个)似乎总是比其他的接收更多的数据。我进一步尝试在具有良好分布的列上使用 distribution 子句,但这也没有帮助。
有没有办法弄清楚大多数数据似乎流向一个化简器的原因是什么?或者,有关如何控制此数据量的任何建议都将非常有帮助。
我的代码(表和列名称已更改)。目标在列 l 和 m 上分区目标按user_id群集
set hive.enforce.bucketing = true;
set mapred.reduce.tasks=130;
insert overwrite table dest_table
select
coalesce(event_guid, "<UNKNOWN>") event_guid,
coalesce(a, "<UNKNOWN>"),
coalesce(b, "<UNKNOWN>"),
coalesce(user_id, "<UNKNOWN>"),
coalesce(c, "<UNKNOWN>"),
coalesce(d, "<UNKNOWN>"),
coalesce(e, "<UNKNOWN>"),
coalesce(f, "<UNKNOWN>"),
coalesce(g, "<UNKNOWN>"),
coalesce(h, "<UNKNOWN>"),
coalesce(i, "<UNKNOWN>"),
coalesce(j, "<UNKNOWN>"),
coalesce(k, "<UNKNOWN>"),
coalesce(l, "<UNKNOWN>"),
coalesce(m, "<UNKNOWN>"),
coalesce(n, "<UNKNOWN>"),
coalesce(o, "<UNKNOWN>"),
coalesce(p, "<UNKNOWN>"),
coalesce(q, "<UNKNOWN>"),
coalesce(r, "<UNKNOWN>"),
coalesce(to_date(from_utc_timestamp(s, "PST")), "0000-00-00"),
coalesce(cast(from_utc_timestamp(s, "PST") as string), '0000-00-00 00:00:00'),
coalesce(s, '0000-00-00 00:00:00'),
coalesce(t, '0000-00-00 00:00:00'),
coalesce(u, '0000-00-00 00:00:00'),
coalesce(cast(from_utc_timestamp(t, "PST") as string), '0000-00-00 00:00:00'),
coalesce(cast(from_utc_timestamp(u, "PST") as string), '0000-00-00 00:00:00'),
coalesce(to_date(from_utc_timestamp(u, "PST")), "0000-00-00"),
coalesce(v, "<UNKNOWN>"),
coalesce(w, "<UNKNOWN>"),
coalesce(x, "<UNKNOWN>")
from
source raw
where v is not null and w is not null and x is not null
distribute by event_guid
;
这只是一个建议,但您可以尝试使用hive中的TRANSFORM或MAP/REDUCE关键字来控制数据自己的映射器和化简器脚本吗?例如,选择键作为提供均匀分布的列(这是您尝试使用分发方式实现的)做可能需要所以一些 HQL 分析。运行一个组依据,计数(*)在event_guid上。计数是否均匀分布?