支持火花作业中的多租户



有人可以帮助我了解Spark的多租户方面吗?

我需要共享一个运行 Spark 的集群。正在执行的数据和作业应该是多租户的。正在执行的工作可能来自两个竞争对手。

是否有任何链接/文档或现实生活中的用例可以帮助我理解这些行?

在实现 https://issues.apache.org/jira/browse/YARN-796 之前,这似乎不可能在 YARN 中实现。

但是,您可以使用 Mesos https://spark.apache.org/docs/latest/running-on-mesos.html 运行 Spark,然后使用标签、约束和/或虚假资源,以便您的作业只能在集群中的特定计算机上运行。

我想

你可以使用这个链接:https://www.slideshare.net/StampedeCon/apache-hadoop-yarn-multitenancy-capacity-scheduler-preemption-stampedecon-2015

但是,是的,谢尔盖是对的。YARN中还没有多租户。你可以使用中间人。

最新更新