应如何为可扩展性和高可用性配置主节点和工作节点



我正在使用GCP Dataproc和Kubernetes开发数据工程解决方案。

虽然创建原型很容易,但问题在于主配置和辅助配置。云提供商的例子表明,master和worker的配置相同。

https://cloud.google.com/ai-platform/training/docs/machine-types

AWS和Azure等其他云提供商也是如此。

是否有可能使master的配置低于worker的配置?例如。主=n1-highcpu-8工人=n1-highcpu-16

当您在GKE上运行Dataproc时,主节点和工作节点的大小实际上并不适用,因为Kubernetes变成了资源管理器,而不是YARN。当您创建GKE集群时,有各种策略可以优化运行Dataproc的成本和规模。我建议使用节点自动配置,因为它会根据部署的工作负载自动添加/删除大小合适的节点。您还可以设置节点的最小和最大大小。我认为最小尺寸应该使用4种CPU机器类型。

在创建标准Dataproc集群时,主节点和工作节点确实可以是不同的类型。有助于确定主节点的正确大小的因素包括辅助节点的数量和提交的作业数量。通常情况下,主节点和辅助节点的CPU配置相似,如果您有500多个辅助节点,您可能希望主节点的内存是辅助节点的两倍,因为它们需要管理的辅助节点占用空间要大得多。

最新更新