由于配置单元元存储中存在多个分区而导致的错误



我使用Apache spark sql从数据库中查询数据。我知道Spark默认共享hive的同一个元存储。我已经根据列id对输入数据进行了分区,列id具有超过300k个不同的值。到目前为止,该表有超过30万个分区,而且还会定期增加。

是否因此而出现任何问题?

是的,那么多分区条目将在名称节点上产生跟踪每个分区条目的开销。

如果您只有一个表,那么对该列进行Hive索引是一个不错的选择。

相关内容

  • 没有找到相关文章

最新更新