从PDF提取数据的自然语言处理



我有许多不同的扫描PDF格式,其中有许多不同的字段。将其视为已被扫描的发票。我需要从扫描的PDF中提取信息,并输出每个字段中的字段和文本。

我有一个OCR工具,可以很好地提取原始格式的所有文本。我以某种方式使用NLP必须能够从原始文本中提取字段及其值。由于发票的格式有很多,因此在这种情况下,使用OCR不是一种选择。NLP如何帮助我解决此问题?

大多数NLP工具旨在从语句中提取数据。如果您没有标点符号,则可能无法很好地奏效。如果您使用的是NLU服务,例如https://mynlu.com,您还需要提供常见短语的示例以及其中包含的相关数据(实体)的位置。如果您可以将其分成语句,那么Mynlu或其他NLU服务(Luis,Watson等)之类的东西可以使您在&lt中出门;10分钟。

最新更新