sagemaker python sdk (training jobs)从边缘节点继承所有权限吗? &



在企业网络中训练机器学习模型。mlflow跟踪与sagemaker笔记本实例一起工作正常,但是当从同一个sagemaker笔记本实例启动超参数调优作业时,mlflow跟踪将失败:

AlgorithmError: ExecuteUserScriptError: ExitCode 1 ErrorMessage "raise NewConnectionError(urllib3.exceptions.)NewConnectionError: & lt; urllib3.connection。在处理上述异常期间,发生了另一个异常:Traceback(最近的调用最后一次):File "/opt/conda/lib/python3.8/site-packages/requests/adapters.py", 440行,在send resp = conn.urlopen(File "/opt/conda/lib/python3.8/site-packages/urllib3/connectionpool.py", 813行,在urlopen返回self。urlopen([上一行重复2次]File "/opt/conda/lib/python3.8/site-packages/urllib3/connectionpool.py",第785行,在urlopen中retries = retries。increment(File "/opt/conda/lib/python3.8/site-packages/urllib3/util/retry.py",第592行,在increment中引发MaxRetryError(_pool, url, error或ResponseError(cause)) urllib3.exceptions。MaxRetryError: HTTPConnectionPool(host='mlflow.dev.corp.net', port=80): Max retryerror

mlflow跟踪uri对企业访问有限制。但是我不明白为什么它会阻止由sagemaker sdk启动的子实例,因为培训工作的IAM角色ARN是从sagemaker笔记本实例继承的。有什么解决办法吗?

此错误与IAM无关。运行此代码的机器没有访问mlflow.dev.corp.net的网络权限。显然,这将中断执行。

最新更新