提高表格识别能力



我尝试使用表单识别器和标签工具来分析发票。发票包含字段和表格数据。表中的所有数据都可以通过ocr过程识别并可读。不幸的是,这些表并不总是被识别为表。有时只有一半的数据被识别为表,在某些情况下没有任何标记为表。

获取表格数据的最佳方式是什么?

文件中写道:"表数据应自动检测,并将在最终输出的JSON文件中可用。但是,如果模型未能检测到所有表数据,您也可以手动标记这些字段用不同的标签标记表中的每个单元格如果表单中有不同行数的表,请确保至少为一个表单标记尽可能大的表">

这是不切实际的,会使字段计数器在几百个字段以上。有没有一种方法可以提高表的识别能力,比如修改labels.json并定义区域?

如果样本发票和表格由于扫描质量和复杂的表格而变得复杂,并且这些表格通常不会被我们的表格提取自动检测到。我们正在努力改进我们的表技术,并希望在不久的将来能够提取复杂的表。

在此之前,您可以尝试使用带有标签的Form Recognizer train功能,并将这些表标记为键值对,将表中的每个单元格标记为值。请注意,您需要使用表中最大行数的5个样本进行标记和训练。

相关内容

  • 没有找到相关文章

最新更新