Chrome/Firefox浏览器与AWS Sagemaker和Jupyter崩溃 - 如何记录/调试



我已经在jupyter上创建了一个学习/模型拟合笔记本,并且在过去一年中在我的游戏笔记本电脑上使用了它,却没有问题。

由于我现在正在增加培训数据集10倍,所以我想将jupyter笔记本移至AWS SageMaker,以便它可以提供额外的马力,因此我不必将笔记本电脑留在桌子上在培训完成之前打开一个无法使用的人。

我创建了SageMaker实例,并打开了Jupyter笔记本。使用代码和原始数据,在我的笔记本电脑上运行3个小时内,我准备在笔记本中运行单元格,以获取整个时间,因此我可以为更大的运行选择正确的硬件方案。

>

每次我都试图运行笔记本,它会使浏览器崩溃。我在两个Windows 10上尝试了Chrome和Firefox,以及Ubuntu 16.04笔记本电脑。

我不知道如何做两件事我认为可能会有所帮助。
1)查看Jupyter笔记本电脑服务器代码日志。我创建了生命周期创建/启动脚本,然后查看通过CloudWatch创建的日志,而没有关于那里的崩溃。2)查看浏览器内部的日志。我已经在两者上打开了开发人员模式,但是一旦它用" AW snap"等崩溃。

这是试图运行的代码。我已经尝试了show_metric = true和false:

from datetime import datetime
start_time=datetime.now().strftime("%Y-%m-%d %H:%M")
tf.reset_default_graph()
# Build neural network
phr_net = tflearn.input_data(shape=[None, len(phr_train_x[0])])
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, 8)
phr_net = tflearn.fully_connected(phr_net, len(phr_train_y[0]), activation='softmax')
phr_net = tflearn.regression(phr_net)
# Define model and setup tensorboard
phr_model = tflearn.DNN(phr_net, tensorboard_dir='phr_tflearn_logs')
# Start training (apply gradient descent algorithm)
phr_model.fit(phr_train_x, phr_train_y, n_epoch=EPOCH_RUN_LENGTH, batch_size=8, show_metric=True)
phr_model.save('model.phr_tflearn')
print("start: ", start_time, "end: ", datetime.now().strftime("%Y-%m-%d %H:%M"))

我是一个很好的Google,没有找到任何帮助。AWS文档只是将我带到了圈子。有人有任何建议吗?

感谢您使用Amazon Sagemaker。我建议在AWS SageMaker下打开一个AWS论坛帖子https://forums.aws.aws.amazon.com/forum.jspa?forumid=285 = 285&start = 0,以便SageMaker团队可以与您合作以更多地了解什么实例您正在使用的类型,笔记本实例ARN等。

最新更新