如何使用 Amazon sagemaker Pytorch 估算器处理嵌套在文件夹中的入口点



我正在尝试使用 python-sagemaker-sdk(估算器类(在 Amazon sagemaker 上运行训练作业。

我有以下

estimator = PyTorch(entry_point='training_scripts/train_MSCOCO.py',
                            source_dir='./',
                            role=#dummy_role,
                            train_instance_type='ml.p3.2xlarge',
                            train_instance_count=1,
                            framework_version='1.0.0',
                            output_path=#dummy_output_path,
                            hyperparameters={'lr': 0.001,
                                             'batch_size': 32,
                                             'num_workers': 4,
                                             'description': description})

角色和output_path隐藏以保护隐私。

我收到以下错误,"没有名为 training_scripts\train_MSCOCO 的模块"。

当我运行python -m training_scripts.train_MSCOCO时,脚本运行良好。但是,当我通过entry_point='training_script.train_MSCOCO.py时,它不会运行,因为在目录"./"中找不到名为"training_scripts.train_MSCOCO

.py的文件"。

我对如何在 AWS sagemaker 中从我的存储库的顶层运行嵌套训练脚本感到困惑,因为它们似乎有冲突的路径需求,一个是 python 模块点表示法,另一个是标准文件路径斜杠表示法。

以下任何一个都可以工作:

estimator = PyTorch(entry_point='training_scripts/train_MSCOCO.py',
                    role=#dummy_role,
                    ...
estimator = PyTorch(entry_point='train_MSCOCO.py',
                    source_dir='training_scripts',
                    role=#dummy_role,
                    ...

相关内容

  • 没有找到相关文章

最新更新