配置单元:联接性能 - 字符串与整数



联接表的 Hive 查询运行 12+ 小时。

此查询联接字符串列。因此,对于每一列,hive 都必须进行字符串比较。在字符串上连接是合乎逻辑的。

将字符串列转换为 int 有意义吗?还是一般认为影响太低?

我建议通过在 hive 查询中添加一些可以更好地连接的属性来提高连接性能。

set hive.auto.convert.join=false;
set hive.auto.convert.join.noconditionaltask=false;

我已经多次看到上述参数有所不同。也许如果您向我们提供有关您加入多少张桌子以及它们有多大的更多信息。会有更好的解决方案。

最新更新