PDF 规范 - 获取字体大小(以磅为单位)



我正在尝试用 C# 编写 PDF 解析器,但我遇到了一个不确定如何解释规范的问题。

除非另有规定,否则PDF文档中的用户空间为1/72英寸(即1pt)。

Tf运算符提供的刻度将字体从标准大小(通常为 1 个用户空间单位/1pt)缩放到正确的显示大小。

我有以下页面内容:

1 0 0 -1 0 792 cm
q
0 0 612 792 re
W* n
q
.75 0 0 .75 0 0 cm
1 1 1 RG 1 1 1 rg
/G0 gs
0 0 816 1056 re
f
0 0 816 1056 re
f
0 0 816 1056 re
f
Q
Q
q
0 0 612 791.25 re
W* n
q
.75 0 0 .75 0 0 cm
1 1 1 RG 1 1 1 rg
/G0 gs
0 0 816 1055 re
f
0 96 816 960 re
f
0 0 0 RG 0 0 0 rg
BT
/F0 21.33 Tf
1 0 0 -1 0 140 Tm
96 0 Td <0037> Tj
13.0280762 0 Td <004B> Tj
11.8616943 0 Td <004C> Tj
4.7384338 0 Td <0056> Tj
ET
BT
/F1 21.33 Tf
1 0 0 -1 0 140 Tm
136.292267 0 Td <0001> Tj
ET
...

我知道示例中定义的 2 个文本操作的点数字体大小为 16pt,但 Tf 运算符使用 21.33 的大小。为了从这个字体大小转换回点,我打算使用cm运算符的小数位数(y)来制作点大小:

21.33 * 0.75 = 15.9975

但是,我在PDF规范中找不到任何支持此转换的内容,并且我检查的库(PDFBox,iTextSharp,Spire PDF)都没有将字体大小列为21.33以外的任何内容。

我应该使用 CTM(由 cm 运算符定义)将字体大小缩放回正确的比例还是这只是纯粹的机会?

pdf文件在这里: https://github.com/UglyToad/PdfPig/blob/master/src/UglyToad.PdfPig.Tests/Integration/Documents/Single%20Page%20Simple%20-%20from%20google%20drive.pdf

首先,您与其他文本提取器的比较是基于一个误解:

我检查过的库(PDFBox,iTextSharp,Spire PDF)都没有将字体大小列为21.33。

所有这些库返回的"字体大小"参数只是Tf指令的大小参数,而不是您在尝试确定的最终文档中观察到的有效字体大小。因此,您与其他库的比较没有意义。


现在,关于您的方法:

为了从这个字体大小转换回点,我打算使用cm运算符的小数位数(y)来制作点大小:

21.33 * 0.75 = 15.9975

虽然有些图书馆这样称呼它,但将第四厘米参数称为"比例(y)"是误导性的。 例如,在文本旋转 90° 的情况下,它通常为空,而图形表示通常不会降低到零高度。

因此,仅使用"scale (y)"参数不起作用,您必须考虑整个转换。


最后,让我们讨论一下你到底在追求什么。

只要组合变换矩阵(当前变换矩阵 + 文本矩阵 + 水平缩放)是正交的,并且文本行遵循此正交性,您的字体大小概念的含义就相当明显。

但是,一旦该组合矩阵中出现剪切,"字体大小"的含义就不再明显了。

  • 您可能指的是原始垂直线(一个单位高)转换为的长度。
  • 您可能指的是该转换后的行投影到与转换后的字体基线成直角的行上的长度。
  • 或者,您可能指的是该转换线与观测基线成直角的投影到线上的长度。

前两个数字使用简单的线性代数计算起来是微不足道的。第三个数字可能更困难,因为您必须确定人类在生成的 PDF 中观察到的基线。在创新使用转换的情况下,这可能并非易事

最新更新