我有一个团队,其中许多成员有权通过命令行将Spark任务提交给YARN(资源管理(。很难跟踪谁在使用多少内核,谁在使用多少内存......例如,现在我正在寻找一个软件、框架或其他东西可以帮助我监控每个成员使用的参数。它将成为客户端和YARN之间的桥梁。然后我可以使用它来过滤提交命令。
我确实看了一下 mlflow,我真的很喜欢 MLFlow 跟踪,但它是为 ML 训练过程设计的。我想知道是否有其他选择可以达到我的目的?或者还有其他解决方案可以解决问题。
谢谢!
我的建议是自己构建这样一个工具,因为它不太复杂,有一个包装器脚本来 Spark 提交,该脚本记录数据库中的使用情况,在 Spark 作业完成后,包装器将知道发布信息。可以很容易地完成。此外,如果您的团队已经要求提供太多信息,您甚至可以阻止新的 Spark 提交。
当你自己构建它时,它非常灵活,因为你甚至可以创建"子团队"或任何你想要的东西。