我正在尝试使用 python-sagemaker-sdk(估算器类(在 Amazon sagemaker 上运行训练作业。
我有以下
estimator = PyTorch(entry_point='training_scripts/train_MSCOCO.py',
source_dir='./',
role=#dummy_role,
train_instance_type='ml.p3.2xlarge',
train_instance_count=1,
framework_version='1.0.0',
output_path=#dummy_output_path,
hyperparameters={'lr': 0.001,
'batch_size': 32,
'num_workers': 4,
'description': description})
角色和output_path隐藏以保护隐私。
我收到以下错误,"没有名为 training_scripts\train_MSCOCO 的模块"。
当我运行python -m training_scripts.train_MSCOCO时,脚本运行良好。但是,当我通过entry_point='training_script.train_MSCOCO.py
时,它不会运行,因为在目录"./"中找不到名为"training_scripts.train_MSCOCO
我对如何在 AWS sagemaker 中从我的存储库的顶层运行嵌套训练脚本感到困惑,因为它们似乎有冲突的路径需求,一个是 python 模块点表示法,另一个是标准文件路径斜杠表示法。
以下任何一个都可以工作:
estimator = PyTorch(entry_point='training_scripts/train_MSCOCO.py',
role=#dummy_role,
...
estimator = PyTorch(entry_point='train_MSCOCO.py',
source_dir='training_scripts',
role=#dummy_role,
...