是否有OCR的行业标准输出格式?



是否有OCR的行业标准输出格式?我似乎找不到任何被定义为行业标准的东西,我对OCR也不是很有经验,所以我也不知道是否有一个标准。

hOCR是一个开放标准,它定义了OCR输出的数据格式。

没有这样一种格式,但是有一些常用的实践和开放标准格式可以满足您的需求。这个问题就像问"煮土豆的标准结果是什么"。土豆泥,炸薯条,或烤(不知道这个例子是从哪里来的,我一定是饿了…)

同样,"行业标准"将取决于具体的行业。如果您处于特定的垂直领域,那么某些格式将比其他格式更常见(几乎是标准)。例如:

  • Medical - HL7格式文本
  • Libraries - ALTO PDF
  • 法律/电子发现- PDF文本下的图像
  • 集成/自动化- XML
一般来说,如果我回答你的问题,最常用和行业接受的格式是:TXT, XML, PDF(几种格式),我不会错。每一种都有独特的属性和特定的用途,但由于开放标准,每一种都可以被其他技术广泛使用。

从相反的一端接近它是更好的,这意味着通过"业务需求"来思考数据会发生什么,它需要被吸收在哪里,应该准确地定义你想从OCR输出中使用的交接格式。

XIEO (http://xieo.info)使用(玛雅软件)专有格式称为CML (Clix标记语言),有效地编码页面,区域,行,文本框和相关信息。VisualText/NLP++(可在http://www.textanalysis.com获得)有一个特殊的标记器通道来"吸收"该格式并生成现成的解析树。NLP++分析器可以在初始解析树的基础上构建。

这个工作流程在xie已经使用了5年多,主要用于处理官方记录文件(契据、抵押、法院书记等)并从中提取信息。

在此工作流程中,可以清理oced文本,重新分区以修复OCR错误和错误分区,并从文本中提取相关信息。

Amnon Meyers, CTO, Text Analysis International, Inc . amnon.meyers@textanalysis.com

最新更新