使用 apache 驼峰解析 pdf 文件

如何使用Apache Camel读取/解析pdf文件。任何特定示例或代码片段来解析文件？感谢您的帮助。

提前谢谢。

您可以使用 Apache Tika 项目从 PDF 文件中提取数据。它是从各种类型的文档中提取数据的通用工具。它使用 PDFBox 在引擎盖下进行 PDF。

Camel根本不是解析任何文件。你可能想看看Apache PDFBox

有一个驼峰-fop组件：http://camel.apache.org/fop 但它仅用于渲染pdf文件。不支持解析 pdf 文件。

实际上使用Camel的组件pdf，您实际上也可以提取文本，您可以在此处查看如何执行此操作的示例：https://github.com/apache/camel/blob/master/components/camel-pdf/src/test/java/org/apache/camel/component/pdf/PdfTextExtractionTest.java

该组件基于Apache PDFBox：https://camel.apache.org/components/latest/pdf-component.html

相关内容

最新更新

热门标签：