小贝子编程

无法在PDFBOX中读取单引号和双引号字符及其周围的一些字符

本文关键字：字符周围 PDFBOX 读取单引号 java pdfbox
更新时间 : 2023-08-28
英文 : Cannot read single quote and double quote character and some of the characters around it in PDFBOX

我正在使用Apache PDFbox处理我的PDF。我需要提取文本以及PDF中每个字符的字体信息，以便进一步处理。我使用processTextPosition（TextPosition text）方法来获取文本及其字体信息。但是我无法阅读像单引号、双引号这样的字符，也无法阅读它周围的一些字符。我检查了PDF的流内容。它对这些单引号和双引号以及它周围的字符有一些数字表示，因为它在正常情况下有实际字符。。。有谁能帮我解决这个问题吗。

可能有一种更标准的方法可以从pdf中提取字体，如本文的答案所述：如何使用pdfbox提取文本内容的字体样式？

pdfboxwiki中描述了基本的文本提取：http://pdfbox.apache.org/cookbook/textextraction.html

无法在PDFBOX中读取单引号和双引号字符及其周围的一些字符

相关内容

最新更新

热门标签：