小贝子编程

将tpu用于顶点ai上的自定义训练作业

本文关键字：自定义作业 tpu 用于顶点 ai google-cloud-platform google-cloud-vertex-ai google-ai-platform
更新时间 : 2023-09-21
英文 : using tpu in custom training job on vertex ai

我尝试通过自定义培训工作使用tpu-v2-8。我的工作在vm上运行得很好，但作为自定义培训工作，它是OOM的，而且看起来更慢。它也很难安排(挂起超过几分钟，大部分时间都遇到内部错误，尝试了us-central1和asia-east1(。

此外，对cpu、内存、网络等的监控存在于web UI中，但表示不可用。此外，我使用的是TF/JJAX，日志格式符合glog标准，但我的应用程序中的日志记录都显示为错误，而不是云日志记录中的适当级别。

我是错过了什么还是做错了什么？

不，一切似乎都很好。具体而言：

相关内容