云视觉API - PDF + OCR作为输出格式可能吗?



是否可以对PDF进行OCR PDF,并在PDF中输出文本(图像下的文本(。 而不是单独的文件?

是的,这是可能的。

首先使用 gcv2hocr 将 google cloud vision 响应转换为 hocr 文件。

gcv2hocr test.jpg.json output.hocr

然后使用 hocr 工具将 hocr 数据拼接到 pdf 文件。

hocr-pdf --savefile out.pdf <imgdir>

最新更新