无法在PDFBOX中读取单引号和双引号字符及其周围的一些字符



我正在使用Apache PDFbox处理我的PDF。我需要提取文本以及PDF中每个字符的字体信息,以便进一步处理。我使用processTextPosition(TextPosition text)方法来获取文本及其字体信息。但是我无法阅读像单引号、双引号这样的字符,也无法阅读它周围的一些字符。我检查了PDF的流内容。它对这些单引号和双引号以及它周围的字符有一些数字表示,因为它在正常情况下有实际字符。。。有谁能帮我解决这个问题吗。

可能有一种更标准的方法可以从pdf中提取字体,如本文的答案所述:如何使用pdfbox提取文本内容的字体样式?

pdfboxwiki中描述了基本的文本提取:http://pdfbox.apache.org/cookbook/textextraction.html

最新更新