如何为大数据集群分配物理资源

我有三台服务器，我想在这些服务器上部署Spark Standalone Cluster或Spark on Yarn Cluster。现在我有一些关于如何为大数据集群分配物理资源的问题。例如，我想知道是否可以在同一节点上部署Spark Master Process和Spark Worker Process。为什么?

服务器详细信息:

CPU Cores: 24
Memory: 128GB

我需要你的帮助。谢谢。

当然可以，只要把host和Master放在slave中。在我的测试服务器上，我有这样的配置，主机也是工作节点，并且只有一个工作节点。一切正常

但是请注意，worker将失败并导致主要问题(即系统重新启动)，然后您将遇到问题，因为master也将受到影响。

编辑:问题编辑后的一些更多信息:)如果您正在使用YARN(如建议)，您可以使用动态资源分配。这里有一些关于它的幻灯片和MapR的文章。这是一个很长的话题如何正确配置内存为给定的情况下，我想这些资源会给你很多关于它的知识

顺便说一句。如果你已经安装了Hadoop集群，可以试试YARN模式。但是这不是我们要讨论的话题

相关内容

最新更新

热门标签：