PDF编辑通过html

不确定这是否是这个问题的正确位置，但我无法找到任何其他媒体的建议。

文本提取。正如mkl在评论中提到的，PDF可能已经包含一个文本层(数字创建或预编码)，或者它可能是没有文本的图像PDF(扫描或光栅化)。可以尝试现有的文本提取，但我认为它成功的几率很低，因为PDF没有用于文本提取的坐标信息。换句话说，以编程方式从PDF中提取所有现有文本非常容易，但很难从特定区域或区域提取文本。出于这个原因，即使文本已经存在，也经常使用OCR，因为OCR返回具有非常详细的位置和区域信息的文本，这些信息可以映射到图像坐标。

PDF区域高亮显示。我相信你要么重新构建一个新的PDF，突出显示某些区域，要么构建你自己的类似PDF的查看器，将显示图像、坐标、文本和突出显示的区域。我会选择第二个选项，即创建您自己的查看器，因为您可以对功能和UI进行额外的控制。您的查看器可以将PDF作为输入，并生成修改后的PDF作为输出，但是当您处理文档时，它不一定是PDF，尽管它在用户的视角中可以表现得像PDF，但它增加了交互功能。

相关内容

最新更新

热门标签：