小贝子编程

通过机器学习或以编程方式从 PDF/扫描的 PDF 中提取 30 种不同类型文档的关键数据字段

本文关键字：PDF 同类型文档字段数据提取方式编程扫描机器学习 python pdf machine-learning text extract
更新时间 : 2023-09-15
英文 : Extract key data fields from PDFs/Scanned PDFs through machine learning or programmatically for 30 differrent kinds of documents

我有30种不同类型的PDF。我需要提取特定于每个 PDF 的信息。我最好用python来做。我能够从一种类型的pdf中提取特定信息，但需要一个模型来识别文档的类型并自动识别需要提取的关键字，然后检索它们。是否可以以编程方式使用 python？任何帮助将不胜感激。请注意，并非所有文件都是结构化的。但是首先，我们可以假设文档是结构化的。

我尝试过OpenCV从扫描的图像中提取文本，但它给了我可怕的结果。我已经将整个图像转换为文本，但这不是我想要的。我只是从每个pdf中寻找特定信息。

你需要两样东西。

对于关键字，您可以使用 tf-idf 对于主题提取，您可以使用文档分类

通过机器学习或以编程方式从 PDF/扫描的 PDF 中提取 30 种不同类型文档的关键数据字段

相关内容

最新更新

热门标签：