我尝试通过自定义培训工作使用tpu-v2-8。我的工作在vm上运行得很好,但作为自定义培训工作,它是OOM的,而且看起来更慢。它也很难安排(挂起超过几分钟,大部分时间都遇到内部错误,尝试了us-central1和asia-east1(。
此外,对cpu、内存、网络等的监控存在于web UI中,但表示不可用。此外,我使用的是TF/JJAX,日志格式符合glog标准,但我的应用程序中的日志记录都显示为错误,而不是云日志记录中的适当级别。
我是错过了什么还是做错了什么?
不,一切似乎都很好。具体而言:
- 训练过程较慢是有道理的,因为所有操作都通过Vertex AI传递到TPU
- 有时,很难通过Vertex AI获得TPU。这可能是Vertex AI本身的容量问题。继续尝试不同的区域,包括
europe-west4
- 是的,不幸的是,目前使用TPU没有可用的度量,一些日志条目被标记为错误