我已经使用Forms Recognizer好几天了,无法让它识别表单中的键。
我想用它来提取学生在考试中给出的答案。。。这里有一个例子。
我无法改变学生填写的表格的结构,因为这是一场全国性的考试,我无法了解是谁组织的。
因此,我按照微软文档中的建议训练了一个模型,并用它来"阅读"表格,它得到了大部分答案,但它都是一个密钥">令牌"的值
{
"key": [
{
"text": "__Tokens__",
"boundingBox": [
0,
0,
0,
0,
0,
0,
0,
0
]
}
],
"value": [
{
"text": "01",
"boundingBox": [
110.1,
826.6,
125.6,
826.6,
125.6,
816.8,
110.1,
816.8
],
"confidence": 1
},
{
"text": "A",
"boundingBox": [
148.2,
834.4,
160.6,
834.4,
160.6,
816.8,
148.2,
816.8
],
"confidence": 1
},
{
"text": "26",
"boundingBox": [
229.4,
828.6,
246,
828.6,
246,
816.8,
229.4,
816.8
],
"confidence": 1
},
{
"text": "B",
"boundingBox": [
268.6,
834.4,
277.8,
834.4,
277.8,
816.8,
268.6,
816.8
],
"confidence": 1
}
然后我在excel上重新创建了结构,但使用了:在数字之后,并训练了另一个模型。我还打印了一些副本并填写了测试,Form Recognizer将数字理解为密钥。
{
"key": [
{
"text": "01:",
"boundingBox": [
270.4,
1625.4,
313,
1625.4,
313,
1600.5,
270.4,
1600.5
]
}
],
"value": [
{
"text": "A",
"boundingBox": [
350.7,
1620.9,
368.8,
1620.9,
368.8,
1587,
350.7,
1587
],
"confidence": 1
}
]
},
{
"key": [
{
"text": "26:",
"boundingBox": [
520.2,
1624.2,
552.8,
1624.2,
552.8,
1600.5,
520.2,
1600.5
]
}
],
"value": [
{
"text": "E",
"boundingBox": [
604.6,
1618.8,
625.8,
1618.8,
625.8,
1587,
604.6,
1587
],
"confidence": 1
}
]
}
有人知道一些方法可以将数字字段识别为不带:的键吗?
Form Recognizer不会将行号视为键,除非特别标记为键,因此它目前不会将它们视为键。