如何使用Apache Camel读取/解析pdf文件。任何特定示例或代码片段来解析文件?感谢您的帮助。
提前谢谢。
您可以使用 Apache Tika 项目从 PDF 文件中提取数据。它是从各种类型的文档中提取数据的通用工具。它使用 PDFBox 在引擎盖下进行 PDF。
Camel根本不是解析任何文件。你可能想看看Apache PDFBox
有一个驼峰-fop组件:http://camel.apache.org/fop 但它仅用于渲染pdf文件。不支持解析 pdf 文件。
实际上使用Camel的组件pdf,您实际上也可以提取文本,您可以在此处查看如何执行此操作的示例:https://github.com/apache/camel/blob/master/components/camel-pdf/src/test/java/org/apache/camel/component/pdf/PdfTextExtractionTest.java
该组件基于Apache PDFBox:https://camel.apache.org/components/latest/pdf-component.html