信息提取



我正在寻找使用机器学习/NLP/深度学习技术从发票中提取信息的步骤/过程。将遵循哪些步骤/流程?

下文需要对这一办法加以澄清。

假设有来自 2 家供应商的发票,需要如何创建模型来提取以下字段提到的值?它会有关键字提取吗?是否需要实现自定义 NER,如果需要,如何实现?应该如何为此创建训练数据?

发票编号 发票日期 发票金额 地址

您可以使用 SpaCy 来训练您的自定义 NER。SpaCy 需要一种特定的输入格式,其中包含每个实体的开始和结束索引及其标签。您可以参考 SpaCy 文档:https://spacy.io/usage/training

最新更新