由于元数据问题,顶点管道模型训练组件永远无法运行



我正在尝试运行一个Vertex管道(自定义模型训练(,我能够在另一个项目中成功运行它。据我所知,所有的基础设施(服务帐户、存储桶等(都是相同的。

当我点击模型训练组件并读取以下内容时,错误显示在管道UI的灰色框中:

Retryable error reported. System is retrying.
com.google.cloud.ai.platform.common.errors.AiPlatformException: code=ABORTED, message=Specified Execution `etag`: `1662555654045` does not match server `etag`: `1662555533339`, cause=null System is retrying.

我查看了日志资源管理器,发现错误日志是审计日志,其中包含以下相关标签:

protoPayload.methodName="google.cloud.aiplatform.internal.MetadataService.RefreshLineageSubgraph"

protoPayload.resourceName="projects/724306335858/locations/europe-west4/metadataStores/default

这让我觉得Vertex元数据存储或我的管道使用方式有问题。不过审计日志是自动的,所以我不确定。

我尝试过清除元数据存储,也尝试过完全删除它。我还尝试过运行一个不同的模型培训管道,以前在不同的项目中也运行过,但没有成功。

ui 的屏幕截图

您得到的可重试错误是临时问题,现在问题已经解决。

您现在可以重新运行管道,并且不希望它进入无限重试循环。

相关内容

  • 没有找到相关文章

最新更新