AWS Sagemaker笔记本卡在挂起状态



我有一个AWS Sagemaker笔记本,我试图再次推出它。笔记本的状态为Pending已超过3个小时。我看了一下Cloudwatch日志,其中最后几个条目是:

[I 19:14:57.107 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
[W 19:14:57.138 NotebookApp] No web browser found: could not locate runnable browser.
[I 19:14:57.140 NotebookApp] Starting initial scan of virtual environments...
[I 19:15:28.507 NotebookApp] Found new kernels in environments: conda_pytorch_p36, conda_amazonei_mxnet_p27, conda_chainer_p27, conda_mxnet_p27, conda_tensorflow_p27, conda_amazonei_tensorflow_p27, conda_amazonei_tensorflow_p36, conda_mxnet_p36, conda_python3, conda_tensorflow_p36, conda_python2, conda_pytorch_p27, conda_chainer_p36, conda_amazonei_mxnet_p36

日志中没有任何内容表明它失败的原因。从我上次发布时的情况来看,一切看起来都与这一点相同。我能做些什么来启动笔记本电脑还是停止并重新启动笔记本电脑?

尝试在Cloud Watch中查找不同日志组的更多信息。每个生命周期脚本配置都应该有一个特定的日志组。

我也遇到了类似的问题,原因是启动笔记本脚本超时。

调试和评论这些步骤帮助我解决了这个问题。

这也是亚马逊提供的"nohup提示",用于将导致问题的安装步骤与脚本超时限制分离。请在此处输入提示:https://aws.amazon.com/premiumsupport/knowledge-center/sagemaker-lifecycle-script-timeout/

最新更新