我有一个标准配置的HDP 2.2环境,包含Hive, HBase和YARN。
我使用Hive (/w HBase)对一个大约有1000万行的表执行一个简单的计数操作,结果YARN消耗了10gb的内存。
如何减少内存消耗?为什么仅仅计算行数就需要这么多内存?
一个简单的计数操作涉及到后端map reduce作业。在你的例子中,这涉及到一千万行。这里有一个更好的解释。这只是针对后台和执行时发生的事情而不是你关于内存需求的问题。至少,它会给你一个要找的地方的提示。这也没有什么加速的解决方案。快乐编码