AWS传奇人物培训工作(Tensorflow)在Epoch 1暂停



我正在尝试使用自定义数据集训练Maskrcnn。代码在同一个docker容器中的本地机器上运行良好,然而,当我使用aws sagemaker时,它在第一个历元就被卡住了。

我在sagemaker笔记本上看到的培训工作的错误日志

我正在使用Tensorflow 2来实现由https://github.com/simone-viozzi/Mask-RCNN-training-with-docker-containers-on-Sagemaker

正如Gili在评论中提到的,您可以尝试他指出的例子,或者向开发人员报告问题-https://github.com/simone-viozzi/Mask-RCNN-training-with-docker-containers-on-Sagemaker/issues.

最新更新