在Google Colab中忙于运行时频繁断开连接



在过去的一两周里,我在尝试进行长时间的训练时经常出现断开连接的情况。一两个月前,这似乎相当可靠。我的代码确实发生了变化,但这些内部细节似乎与Colab的操作无关。

(另一方面,我确实将本地机器从运行Big Sur的Intel MacBook Pro切换到了运行Monterey的M1(Apple Silicon(MacBook Pro。我认为这对通过Chrome浏览器在云中运行的Colab来说并不重要。(

我看到两种断开连接:

  1. 有一些"虚假断开连接",看起来像是来自断开检测器。这些持续不到一秒钟,然后计算显然毫发无损。黑色通知从窗口的左下角向上滑动,然后滑动返回请参阅下面的视频链接
  2. 然后是"真正的脱节"。我开始计算预计将运行数小时。我看到了"虚假断开连接"的发生频繁地但计算不到一个小时,我发现Colab窗口空闲,没有状态信息,以及重新连接按钮在右上角

视频链接。我在下午1点03分左右开始了这段训练。这段视频是下午1点35分录制的。通常训练应该持续几个小时。相反,它在下午1点52分(比赛开始约50分钟(死亡。请参阅GitHub上一期文章中的一些附加评论。

有人能帮我了解如何度过难关吗?我目前无法在工作中取得进展,因为在Colab运行时决定断开连接之前,我无法完成训练

编辑:

仅供参考:因为一旦发生"真正的断开连接",查看(不再连接(运行时的日志就太晚了,而且在断开连接之前似乎要运行大约一个小时,所以我在运行大约10分钟时保存了一个日志文件。

2022年8月1日编辑:

我的real问题是我的realColab笔记本上的">real断开连接"。但是我的笔记本太复杂了,所以不是一个好的测试用例。我试着做了一个小的测试用例,请参阅Colab笔记本:DisconnectTest.ipynb。它包含了一个来自内胎的基于NIST的通用Keras/TensorFlow基准。我制作了一段前2.5分钟跑步的截屏视频。虽然这次运行完成得还可以——也就是说,没有"真正的断开连接"——但它有几次"虚假的断开"。第一次是在1:36。这些看起来相当温和,但它们确实扰乱了右边的参考资料面板。这使得我们很难知道"真正的脱节"的根源是否与耗尽资源有关。

正如我在Github上关于Colab第2965期的一篇平行文章中所描述的,这似乎是"Colab和Chrome之间的一些交互(可能是macOS Monterey(12.5.1版(,也可能是M1 Apple Silicon(。然而Colab似乎在M1/Monterey/Safari上运行良好。">

如上所述,一个微不足道的Colab示例在Chrome浏览器上失败,但在Safari上运行良好。

最新更新