我目前运行的集群有4个spark节点和1个solr节点。我想快速将集群扩展到20个节点,然后大约扩展到100个节点。我只是不确定在多大的簇大小下使用Mesos或Yarn是有意义的?当我的节点少于100个时,添加Yarn或Mesos有意义吗?
感谢
Mesos和YARN可以扩展到数千个节点而不会出现任何问题。
工作负载决定了要使用什么,如果您的工作负载只有与spark或hadoop相关的作业/任务,YARN将是更好的选择,否则,如果您有Docker容器或其他东西要运行,那么Mesos将是一个更好的选择。
使用Mesos还有许多其他优点和缺点,请在这里的比较中找到它们。
如果您只运行Spark,Spark独立集群将提供与其他集群管理器几乎相同的功能。
如果您想与其他应用程序一起运行Spark,或者使用更丰富的资源调度功能(例如队列),YARN和Mesos都提供了这些功能。其中,YARN可能会预装在许多Hadoop发行版中。
如果您的节点少于100个,并且您不打算与spark一起运行任何其他应用程序,那么spark独立集群将是一个更好的选择,因为您不会过度使用。
这同样取决于你想使用的功能,比如队列或调度器,比如Fair调度器,那么YARN/Mesos是有意义的。(使用或不使用这些功能取决于您对spark集群的处理、工作负载以及集群的繁忙程度。)