是否可以对PDF进行OCR PDF,并在PDF中输出文本(图像下的文本(。 而不是单独的文件?
是的,这是可能的。
首先使用 gcv2hocr 将 google cloud vision 响应转换为 hocr 文件。
gcv2hocr test.jpg.json output.hocr
然后使用 hocr 工具将 hocr 数据拼接到 pdf 文件。
hocr-pdf --savefile out.pdf <imgdir>