我正在尝试运行一个Vertex管道(自定义模型训练(,我能够在另一个项目中成功运行它。据我所知,所有的基础设施(服务帐户、存储桶等(都是相同的。
当我点击模型训练组件并读取以下内容时,错误显示在管道UI的灰色框中:
Retryable error reported. System is retrying.
com.google.cloud.ai.platform.common.errors.AiPlatformException: code=ABORTED, message=Specified Execution `etag`: `1662555654045` does not match server `etag`: `1662555533339`, cause=null System is retrying.
我查看了日志资源管理器,发现错误日志是审计日志,其中包含以下相关标签:
protoPayload.methodName="google.cloud.aiplatform.internal.MetadataService.RefreshLineageSubgraph"
protoPayload.resourceName="projects/724306335858/locations/europe-west4/metadataStores/default
这让我觉得Vertex元数据存储或我的管道使用方式有问题。不过审计日志是自动的,所以我不确定。
我尝试过清除元数据存储,也尝试过完全删除它。我还尝试过运行一个不同的模型培训管道,以前在不同的项目中也运行过,但没有成功。
ui 的屏幕截图
您得到的可重试错误是临时问题,现在问题已经解决。
您现在可以重新运行管道,并且不希望它进入无限重试循环。