Hive分析查询需要大量时间



为了加快大桌子上的etl查询,我们在这些表和晚上在这些表上运行许多analyze查询。但是这些analyze在列上的查询需要大量的内存和时间。我们正在使用tez。是否有任何方法可以像某些设置命令一样优化analyze查询。

如果使用插入覆盖加载表,则可以通过在插入覆盖查询期间设置hive.stats.autogather=true自动收集统计信息。

如果表格分区并逐步加载分区,则可以仅分析最后分区。

ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)] 

请参阅此处:https://cwiki.apache.org/confluence/display/hive/statsdev

对于ORC文件,可以将hive.stats.gather.num.threads指定到递增。

请参阅此处的统计设置的完整列表:https://cwiki.apache.org/confluence/display/hive/hive/configuration properties#configurationproperties-statistics

相关内容

  • 没有找到相关文章

最新更新