我正在尝试使用SageMaker Autopilot。我正在通过CreateAutoMLJob API创建新作业。
加工工作成功,但培训工作在开始后几乎立即停止。以下是其中一个培训工作的历史示例:
Status Start time End time Description
Starting 4/3/2023, 7:03:42 PM 4/3/2023, 7:04:53 PM Preparing the instances for training
Downloading 4/3/2023, 7:04:53 PM 4/3/2023, 7:04:53 PM Downloading input data
Stopping 4/3/2023, 7:04:53 PM 4/3/2023, 7:04:53 PM Stopping the training job
Stopped 4/3/2023, 7:04:53 PM 4/3/2023, 7:04:53 PM Training job stopped
没有可用的日志,并且控制台中没有错误。当我点击重定向到CloudWatch的View logs
按钮时,日志组不存在。
作业似乎已停止。我建议确认是否有任何事情正在阻止工作。你们有清洁工可以阻止这项工作吗?您可以查看CloudTrail,看看是否调用了StopTrainingJob
API。