突出显示不可搜索 PDF 中的文本段落



我需要您的意见来找到一种通用方法,以在扫描的图像pdf中查找文本段落并突出显示它。

当使用谷歌云的OCR功能时,我只是得到了图像中所有单词的数组,包括位置。所以我可以找到一个单词并突出显示它,因为我可以搜索单词并找到它的位置。

但是我如何搜索文本段落呢?

我很乐意从你那里得到一些想法:)

谢谢!

我猜OCR的意思是光学字符识别

我可以想到这个牵强附会的解决方案(假设您的位置为坐标 x 和 y(:

- 创建一个包含所有单词的有序列表。顺序应该是这样的*:word1>word2 如果 x1>x2 和 y1=y2(水平排序(或 x1=x2 和 y1>y2(行排序(。

-找到段落的第一个单词,检查列表中的下一个条目是否匹配,依此类推。一种更简单的方法是找到第一个和最后一个单词,突出显示它们之间的每个单词,但如果单词很常见,它可能会产生重叠。

只要文本不是倾斜,这应该有效。如果是,您应该计算倾斜度并纠正它。

*编辑:如果你先对行进行排序,然后再对单词进行排序,也许会更容易。之后加入列表。

最新更新