Hadoop / Hive升级性能



我们正在测试Hive和Hadoop以挖掘我们的数据,我在不久后安装了Hadoop 1.2.1和Hive 0.11(是稳定版本)

测试服务器是4个内核和16GB RAM。

现在,我想知道切换到Hive 0.12和Hadoop 2.2是否值得在查询上升级服务器的麻烦?

查询看起来像这样:

SELECT i, day(time), count(distint value), count(*) from table lateral view explode(column) tab AS i group by i, day(time);

因此,使用了一些我查询中的所有内容,但是我找不到有关升级时性能增长的体面信息。

对此事的任何见解都很好:)

欢呼

由于您的查询不包含"谓词",因此即使您的数据为orc格式,您也无法享受谓词下降到0.12中引入的存储层。

因此,尽管在0.12的改进中,计划的生成速度和优化速度更快,但我认为,猜测的猜测应该不是戏剧性的。

对于这种查询,您可以期望升级到Hive 12的唯一好处是,如果您有大量分区。如果您有兴趣,Apache Jira Hive-4051有更多信息。

最新更新