PDF编辑通过html



不确定这是否是这个问题的正确位置,但我无法找到任何其他媒体的建议。

文本提取。正如mkl在评论中提到的,PDF可能已经包含一个文本层(数字创建或预编码),或者它可能是没有文本的图像PDF(扫描或光栅化)。可以尝试现有的文本提取,但我认为它成功的几率很低,因为PDF没有用于文本提取的坐标信息。换句话说,以编程方式从PDF中提取所有现有文本非常容易,但很难从特定区域或区域提取文本。出于这个原因,即使文本已经存在,也经常使用OCR,因为OCR返回具有非常详细的位置和区域信息的文本,这些信息可以映射到图像坐标。

PDF区域高亮显示。我相信你要么重新构建一个新的PDF,突出显示某些区域,要么构建你自己的类似PDF的查看器,将显示图像、坐标、文本和突出显示的区域。我会选择第二个选项,即创建您自己的查看器,因为您可以对功能和UI进行额外的控制。您的查看器可以将PDF作为输入,并生成修改后的PDF作为输出,但是当您处理文档时,它不一定是PDF,尽管它在用户的视角中可以表现得像PDF,但它增加了交互功能。

最新更新