是否可以使用AWS的多类分类器来识别文本的给定位置



我正在使用AWS sagemaker,我想创建一些东西,通过给定的文本,它可以识别该描述的位置。有可能吗?

如果除文本以外没有其他类,您可能需要识别模型,则可能不需要多类分类器。

可以使用 Amazon Sagemaker 训练自己的文本检测模型,并使用对象检测算法使用具有标记示例的数据集进行训练,但这变得相当涉及一个具有现有解决方案的问题。

如果您要检测到的文本的外观每次都相同,则您的问题空间从试图解释可变文本,简单地收集足够的示例并为文本"模式"执行对象检测形式在视觉上。请注意,如果文本出现在不同的字体或样式中,则通用对象检测方法不会动态解释它,并且可能需要基于OCR的解决方案。


更广泛地,对于AWS上图像中的文本标识,您有很多选择:

Amazon Rekognition 具有DetectText方法,该方法将使您轻松地在图像中找到文本。如果它是一个小或简单的短语,带有字母数字字符,这对您的用例应该很好。

Amazon textract 在保留源结构时,将帮助您执行OCR(光学字符识别(。这非常适合文档和表格,但听起来不适用于您的用例。

AWS Marketplace 还将托管第三方供应商的选项。文本区域识别的一个示例是Rocketml。

也有一些很棒的开源工具我建议您查看:OPENCV以确定文本边界框,以及用于OCR和文本提取的Tesseract。这篇博客文章在整个一起使用它们的过程中做得很好。

其中任何一个都将有助于解决您在AWS上执行OCR/文本标识的问题,但最佳选择取决于您当前和未来的需求,以及您希望实现该功能的速度。

您的问题尚不清楚您拥有的数据或要解决的问题。

如果您有一个文字,其中包含一个名称(例如,"我访问了西雅图并享受鱼市场"(,则可以使用Amazon Grace consem place interity fraction(nee(,包括位置(西雅图"上面的示例(

{
    "Entities": [
        {
            "Score": 0.9857407212257385,
            "Type": "LOCATION",
            "Text": "Seattle",
            "BeginOffset": 10,
            "EndOffset": 17
        }
    ]
}

如果描述更一般,并且您想对酒店,餐厅,主题公园,音乐会/表演或类似类型的描述进行分类,则可以在SageMaker(https://docs.aws.amazon.com/sagemaker/sagemaker/latest/dg/ntm.html(中使用自定义分类或sagemaker中的自定义分类或神经主题模型。您将需要一些用于模型培训的类和文档/句子的示例。

最新更新