为什么分区+bucket比从普通表查询花费的时间长



我的数据如下:

Wban Number, YearMonthDay, Time, Hourly Precip
03011,20060301,0050,0

现在这个文件有超过100万行。因此,我创建了一个包含分区(在wbannumber上)和桶(在yearmonthday上)的表:

create table hpd_bkt
(
YearMonthDay INT,
Time INT, 
HourlyPrecip float
)
partitioned by (wbannum int)
clustered by (yearmonthday) sorted by (yearmonthday) into 31 buckets
row format delimited 
fields terminated by ','
lines terminated by 'n'
stored as textfile;

:

insert overwrite table hpd_bkt partition(wbannum)
Select  yearmonthday,time,hourlyprecip,wbannum from hpd;

现在我使用以下查询来获取不同的wbannumber(对于分区+桶表):

select count(distinct wbannum) from hpd_bkt;

总共花了103秒来处理这个(13秒的CPU时间)

但是当从普通数据表中查询相同的数据时,总共需要21秒(8秒CPU时间)

谁能解释一下,我在这里可能做错了什么?

一种可能性是使用分区可能会产生许多更小的文件。理想情况下,您的文件大小应该至少是块大小,以获得良好的性能。

观察在这两种情况下调度的映射器的数量。在划分&在分块情况下,您可能会注意到,对于较小的数据集,每个映射器的数量更多。

相关内容

  • 没有找到相关文章

最新更新