小贝子编程

由于配置单元元存储中存在多个分区而导致的错误

本文关键字：分区错误存在于配置配置存储单元 apache-spark hive apache-spark-sql metastore
更新时间 : 2023-08-27
英文 : Errors due to many partitions in Hive metastore

我使用Apache spark sql从数据库中查询数据。我知道Spark默认共享hive的同一个元存储。我已经根据列id对输入数据进行了分区，列id具有超过300k个不同的值。到目前为止，该表有超过30万个分区，而且还会定期增加。

是否因此而出现任何问题？

是的，那么多分区条目将在名称节点上产生跟踪每个分区条目的开销。

如果您只有一个表，那么对该列进行Hive索引是一个不错的选择。

最新更新

OAuth2和PKCE - Code验证器无效
GCP 的 CloudSQL - 重新创建现有的只读副本
当解引用指针OCaml时，匹配总是成功的
如何使用cx_Oracle解析oracle过程中的TAB TYPE OUT
如何列出numpy array中的最低值
我如何在脚本中定义tracery来生成随机句子?
如何使用yapf保持参数都在一行?
试图在底部填充溢出
如何使用Matplotlib在圆中绘制未定义数量的随机点
如何在vscode中选择同一个词的所有引用
使用Ansible jinja2 list特性返回的结果比使用Ansible hostvars返回的结果更多
Laravel Eloquent，如何在3个表上访问Eloquent ?
我怎样才能让我的Angular应用允许在生产环境中刷新——重写URL ?
VBS 和 WSH 在简单循环和 CPU 过度使用时出现错误
ComboBox VirtualizingStackPanel WPF Programmatically
如何在使用聚合函数时忽略字符
如何解决多线程静态变量增量?
webpack-streams breaks @types/webpack
为BASH中的单词数组加边框
如何阻止不需要的功能组件被调用?依赖关系在哪里?
列表中字符串字符之间的比较
即使在我执行 commit() 和 autocommit=True 之后，也无法使用 psycopg2 脚本更新 PostgreSQL 表
在x秒后在两个函数之间切换
从对象数组中提取属性，并通过lodash创建基于此属性的另一个?
sectionIndexTitles映射不能正常工作
Apache commons CSVPrinter正在编码双值
coinex交换API，并使用Curl /BASH来放置市场订单加密对
询问直到输入在列表中?
Cant 将 2D 数组传递给函数 C++
如何同步外表和本表?

由于配置单元元存储中存在多个分区而导致的错误

相关内容

最新更新

热门标签：