Azure计算机视觉对于带有矢量图形的pdf返回垃圾

Azure计算机视觉(OCR) API为发送的pdf片段返回垃圾。Pdf有一个可见的文本，比如:4893759678，但实际上它是矢量图形(不是文本)。

当我选择图形时，复制它并粘贴到记事本上，它类似于:(85;9r?A>?EV。对于pdf的某些部分，有数字的图像(光栅图形)，它可以进行分析;它返回OCR文本。

如何修复它或如何指示Azure为矢量图形做ocr。我不能轻易地改变pdf文件本身。

顺便说一下，我正在寻找一份工作作为Azure开发人员(.NET):)

谢谢你K j把你的建议作为一个答案来帮助其他社区成员。

你不能正常剪切和粘贴pdf的位，特别是二进制的，整个文件必须解密，反汇编，解码，重建为对象和那些重新组装成页面，然后你可以复制部分页面。OCR是像素分解分析和重建，因此应该是矢量
的非有损(非jpg)像素图像。

你可以参考Azure的矢量PDF读取API，光学字符识别读取API和如何使用c#和itextsharp从PDF文件中提取图像

相关内容