我们正在测试Hive和Hadoop以挖掘我们的数据,我在不久后安装了Hadoop 1.2.1和Hive 0.11(是稳定版本)
测试服务器是4个内核和16GB RAM。
现在,我想知道切换到Hive 0.12和Hadoop 2.2是否值得在查询上升级服务器的麻烦?
查询看起来像这样:
SELECT i, day(time), count(distint value), count(*) from table lateral view explode(column) tab AS i group by i, day(time);
因此,使用了一些我查询中的所有内容,但是我找不到有关升级时性能增长的体面信息。
对此事的任何见解都很好:)
欢呼
由于您的查询不包含"谓词",因此即使您的数据为orc格式,您也无法享受谓词下降到0.12中引入的存储层。
因此,尽管在0.12的改进中,计划的生成速度和优化速度更快,但我认为,猜测的猜测应该不是戏剧性的。
对于这种查询,您可以期望升级到Hive 12的唯一好处是,如果您有大量分区。如果您有兴趣,Apache Jira Hive-4051有更多信息。