Amazon SageMaker多GPU:未找到目标



我有一个关于Sagemaker multi-GPU的问题-IHAC在单个GPU实例(ml.p3.2xlarge(中运行他们的代码,但当他们选择ml.p3.8xlarge(multi-GPU(时,它会遇到以下错误:

"失败原因:运行5个训练作业后未找到目标度量。请确保自定义算法正在发出由所提供的正则表达式定义的目标度量。">

他们的代码处理多gpu的使用,目前在AWS之外的机器上运行良好。你有什么文件可以帮我解决这个问题吗?他们目前正在使用PyTorch进行所有的模型开发。

看起来他们正在Sagemaker上运行超参数优化(HPO(,并且他们的代码没有发出允许HPO进行调优的度量。这是他们如何指定正则表达式目标度量的问题,有关更多详细信息,请参阅SageMaker Estimator度量定义。

基本上使用类似https://regex101.com为了验证正则表达式,他们使用从训练日志中提取目标编号。

相关内容

  • 没有找到相关文章

最新更新