我是机器学习的新手,所以请原谅这个问题中的任何错误...
问题定义
我们在一个具有这些特定要求的项目中工作:
-
用户从药房架子上拍摄图片,其中包含一堆产品(药物(并将其上传到Azure
-
我们正在使用Azure认知服务来ocr图片并从中检测文本
-
在大多数情况下,OCR会返回大量文本,其中大部分很有用,但是我们不需要它们,而OCR也可能返回错误的单词(与产品名称非常相似(
-
我们有一个产品名称/已识别术语(手动制作(类型为vademecum((的字典(
-
我们需要的是OCR返回的每条文本线:
- 与已知的产品名称/公认术语匹配
- 丢弃未知词
示例
-
我们以此图像为例:示例图像
-
OCR返回这些行(在第二列中(--->(我们的预期结果(:
- flex ---> null
- f1orat1l ---> floratil
- florati l 100 ---> floratil
- Floratil 200 ---> floratil
- Floratil在250 ---> floratil
- enterogermina ---> enterogermina
- Promocao ---> null
- 是27.30 ---> null
- yces boulardii cncm i ----> null
- Vale Por ---> null
- ta barato ---> null
问题
-
OCR可能会返回错误的单词(与产品名称非常相似(请参见第2和3行。您如何推荐实现此模糊匹配?
-
我们想加入不同类型的产品配置(Floratil 100,Floratil 200,Floratil,250(到主要药物类别= Floratil
-
您如何想象解决此问题的最佳管道?我们想使用Azure Machine Learning Services中可用的任何算法,但是我们可以使用Python或其他堆栈
谢谢!
根据您的需求定义,您只需添加Azure搜索并获得所需的内容:
- 致电OCR
- 对于OCR结果中的每个项目,请致电Azure搜索(每个单词之后添加
~
并指定queryType=full
进行模糊匹配,请参见此处的DOC( - 使用搜索结果获取最高匹配的项目,并使用提供的分数在需要时过滤非匹配结果
您只需要使用您提到的字典设置Azure搜索