将tpu用于顶点ai上的自定义训练作业



我尝试通过自定义培训工作使用tpu-v2-8。我的工作在vm上运行得很好,但作为自定义培训工作,它是OOM的,而且看起来更慢。它也很难安排(挂起超过几分钟,大部分时间都遇到内部错误,尝试了us-central1和asia-east1(。

此外,对cpu、内存、网络等的监控存在于web UI中,但表示不可用。此外,我使用的是TF/JJAX,日志格式符合glog标准,但我的应用程序中的日志记录都显示为错误,而不是云日志记录中的适当级别。

我是错过了什么还是做错了什么?

不,一切似乎都很好。具体而言:

  • 训练过程较慢是有道理的,因为所有操作都通过Vertex AI传递到TPU
  • 有时,很难通过Vertex AI获得TPU。这可能是Vertex AI本身的容量问题。继续尝试不同的区域,包括europe-west4
  • 是的,不幸的是,目前使用TPU没有可用的度量,一些日志条目被标记为错误

最新更新