Azure计算机视觉对于带有矢量图形的pdf返回垃圾



Azure计算机视觉(OCR) API为发送的pdf片段返回垃圾。Pdf有一个可见的文本,比如:4893759678,但实际上它是矢量图形(不是文本)。

当我选择图形时,复制它并粘贴到记事本上,它类似于:(85;9r?A>?EV。对于pdf的某些部分,有数字的图像(光栅图形),它可以进行分析;它返回OCR文本。

如何修复它或如何指示Azure为矢量图形做ocr。我不能轻易地改变pdf文件本身。

顺便说一下,我正在寻找一份工作作为Azure开发人员(.NET):)

谢谢你K j把你的建议作为一个答案来帮助其他社区成员。

你不能正常剪切和粘贴pdf的位,特别是二进制的,整个文件必须解密,反汇编,解码,重建为对象和那些重新组装成页面,然后你可以复制部分页面。OCR是像素分解分析和重建,因此应该是矢量

的非有损(非jpg)像素图像。

你可以参考Azure的矢量PDF读取API,光学字符识别读取API和如何使用c#和itextsharp从PDF文件中提取图像