培训工作在Sagemaker停止



最近我在AWS上换了账号,Sagemaker出现了奇怪的错误。

基本上,我只是以这种方式用一些玩具数据集检查xgboost算法:

from sagemaker import image_uris
xgb_image_uri = image_uris.retrieve("xgboost", boto3.Session().region_name, "1")
clf = sagemaker.estimator.Estimator(xgb_image_uri,
role, 1, 'ml.c4.2xlarge',
output_path="s3://{}/output".format(session.default_bucket()),
sagemaker_session=session)
clf.fit(location_data)

然后训练任务开始执行,但由于某种原因,在下载数据步骤时,它停止了训练任务并显示以下消息:

2021-10-21 17:33:27 Downloading - Downloading input data
2021-10-21 17:33:27 Stopping - Stopping the training job
2021-10-21 17:33:27 Stopped - Training job stopped
ProfilerReport-1634837444: Stopping
..
Job ended with status 'Stopped' rather than 'Completed'. This could mean the job timed out or stopped early for some other reason: Consider checking whether it completed as you expect.

另外,当我试图回到培训工作部分并检查cloudwatch中的日志时,没有任何内容要显示。这是一个普遍的问题吗?谁遇到过这个问题?有什么变通办法吗?

这个问题很可能是在创建实例之前运行的sagemaker模板。

最新更新