通过机器学习或以编程方式从 PDF/扫描的 PDF 中提取 30 种不同类型文档的关键数据字段



我有30种不同类型的PDF。我需要提取特定于每个 PDF 的信息。我最好用python来做。我能够从一种类型的pdf中提取特定信息,但需要一个模型来识别文档的类型并自动识别需要提取的关键字,然后检索它们。是否可以以编程方式使用 python?任何帮助将不胜感激。 请注意,并非所有文件都是结构化的。但是首先,我们可以假设文档是结构化的。

我尝试过OpenCV从扫描的图像中提取文本,但它给了我可怕的结果。我已经将整个图像转换为文本,但这不是我想要的。我只是从每个pdf中寻找特定信息。

你需要两样东西。

对于关键字,您可以使用 tf-idf 对于主题提取,您可以使用文档分类

相关内容

  • 没有找到相关文章