产品名称识别 /分类



我是机器学习的新手,所以请原谅这个问题中的任何错误...

问题定义

我们在一个具有这些特定要求的项目中工作:

  1. 用户从药房架子上拍摄图片,其中包含一堆产品(药物(并将其上传到Azure

  2. 我们正在使用Azure认知服务来ocr图片并从中检测文本

  3. 在大多数情况下,OCR会返回大量文本,其中大部分很有用,但是我们不需要它们,而OCR也可能返回错误的单词(与产品名称非常相似(

  4. 我们有一个产品名称/已识别术语(手动制作(类型为vademecum((的字典(

  5. 我们需要的是OCR返回的每条文本线:

    • 与已知的产品名称/公认术语匹配
    • 丢弃未知词

示例

  1. 我们以此图像为例:示例图像

  2. OCR返回这些行(在第二列中(--->(我们的预期结果(:

    • flex ---> null
    • f1orat1l ---> floratil
    • florati l 100 ---> floratil
    • Floratil 200 ---> floratil
    • Floratil在250 ---> floratil
    • enterogermina ---> enterogermina
    • Promocao ---> null
    • 是27.30 ---> null
    • yces boulardii cncm i ----> null
    • Vale Por ---> null
    • ta barato ---> null

问题

  1. OCR可能会返回错误的单词(与产品名称非常相似(请参见第2和3行。您如何推荐实现此模糊匹配?

  2. 我们想加入不同类型的产品配置(Floratil 100,Floratil 200,Floratil,250(到主要药物类别= Floratil

  3. 您如何想象解决此问题的最佳管道?我们想使用Azure Machine Learning Services中可用的任何算法,但是我们可以使用Python或其他堆栈

谢谢!

根据您的需求定义,您只需添加Azure搜索并获得所需的内容:

  • 致电OCR
  • 对于OCR结果中的每个项目,请致电Azure搜索(每个单词之后添加~并指定queryType=full进行模糊匹配,请参见此处的DOC(
  • 使用搜索结果获取最高匹配的项目,并使用提供的分数在需要时过滤非匹配结果

您只需要使用您提到的字典设置Azure搜索

相关内容

  • 没有找到相关文章

最新更新