如何为Azure认知服务实时提取文本?



我希望建立一个应用程序,对文档执行各种基于文本的认知服务功能。

然而,我似乎在第一个障碍上失败了,即首先从文档中获取文本。

我知道OCR和Form识别器都在这个("文本识别";和"文本提取";——但是对于标准文档(例如Word/Excel/PDF),这感觉有点太夸张了。

认知搜索包括"文档破解";process——但是我需要实时处理文档,所以不想在Azure中处理索引。

有没有更简单的"get me the text"我可以使用Azure中的功能(无论是认知服务还是其他)吗?

真正想要做的是必须为每个不同的文件类型(例如PDF/DOCX/TXT/PNG/MSG)编写我自己的函数,并找出我需要使用的API。

提前感谢!

老实说,除了从认知技能(Azure认知搜索)中提取文档之外,没有现成的工具:

https://learn.microsoft.com/en-us/azure/search/cognitive-search-skill-document-extraction。

您还可以构建自己的管道来使用Tika提取文本。净:

https://github.com/KevM/tikaondotnet

最新更新