关于表单识别器,OCR和标签工具容器的容器



我们正在尝试使用表单识别器,OCR和标签工具的容器预览,并有以下问题:

  1. 是否有任何软件可以帮助我们对类似类型的文档进行分类。这将帮助我们对文档进行分类并创建训练数据集
  2. 有没有办法为模型提供用户定义的名称。以下是模型查询的输出 API.It 很难将其绑定回不同类型的模型:
{
"modelId": "f136f65b-bb94-493b-a798-a3e8023ea1b5",
"status": "ready",
"createdDateTime": "2020-05-06T21:35:58+00:00",
"lastUpdatedDateTime": "2020-05-06T21:36:06+00:00"
}
  1. 我可以看到模型文件存储在\output\subscriptions\global\models中,其中/output目录共享容器在docker compos文件中。是否可以将此模型导入新容器。

    模型
    • 具有与模型 ID 相同的 ne 的 json 和 gz 文件
    • 我还附加了码头工人撰写文件供您参考
  2. 有没有办法使用模型训练数据微调或更新相同的自定义模型(相同的模型 ID(
  3. 我们也在尝试标签工具,但它只接受 Azure blob 作为输入。是否可以提供与表单识别器训练相同的输入。 我们正在努力获得此设置,如果它没有解决,我们可能会开始寻找替代方案。

以下是您问题的答案:

  1. 若要对文档进行分类,可以使用自定义视觉来生成文档分类器,或使用文本分类和 OCR。此外,可以使用不带标签的表单识别器训练对训练数据运行它,并使用模型中的群集选项对训练数据集中的类似文档和页面进行分类。
  2. 友好模型名称在表单识别器中尚不可用,这是我们路线图上的未来功能,但尚不可用。
  3. 模型
  4. 不能在容器之间复制,可以使用同一数据集在不同的容器中训练模型。使用表单识别器云服务时,可以在订阅、资源和区域之间复制模型。
  5. 每个训练都会创建一个新的模型 ID,以免覆盖无法更新现有模型的先前模型。
  6. 表单识别器 v2.0 版本尚未在容器中提供,目前只有表单识别器 v1.0 版本在容器中可用。表单识别器 v2.0 也将很快在容器中提供。使用容器发布时,所有数据都保留在本地,标记工具一旦可用于 v2.0 容器版本,也将本地或装载的磁盘而不是 blob 作为输入。

谢谢! 内塔 - MSFT

最新更新