从PDF提取数据的自然语言处理

我有许多不同的扫描PDF格式，其中有许多不同的字段。将其视为已被扫描的发票。我需要从扫描的PDF中提取信息，并输出每个字段中的字段和文本。

我有一个OCR工具，可以很好地提取原始格式的所有文本。我以某种方式使用NLP必须能够从原始文本中提取字段及其值。由于发票的格式有很多，因此在这种情况下，使用OCR不是一种选择。NLP如何帮助我解决此问题？

大多数NLP工具旨在从语句中提取数据。如果您没有标点符号，则可能无法很好地奏效。如果您使用的是NLU服务，例如https://mynlu.com，您还需要提供常见短语的示例以及其中包含的相关数据（实体）的位置。如果您可以将其分成语句，那么Mynlu或其他NLU服务（Luis，Watson等）之类的东西可以使您在＆lt中出门；10分钟。

相关内容

最新更新

热门标签：