Azure 认知服务自定义视觉:如何设计适当的多标签分类?



我使用 ~ 5000 个我自己的特定于域的图像和一组 ~ 30 个分层和非分层标签构建了一个 Azure 自定义视觉模型。

我不确定如何在这个特定的多标签分类问题中最好地组织我的标签动物园。最佳方法(例如,请参阅 https://www.researchgate.net/publication/225379571_A_Tutorial_on_Multi-label_Classification_Techniques 和 https://towardsdatascience.com/journey-to-the-center-of-multi-label-classification-384c40229bff)必须取决于自定义视觉的内部工作原理,可惜没有文档*。例如考虑

Image Document_Description
1 Barclays Bank Statement
2 HSBC Bank Statement
3 Joe Bloggs' Curriculum Vitae

鉴于自定义视觉使用的(可能)未知建模方案及其对任意标记的支持,哪种标记分类法最有效(在训练计算和模型性能方面)?

1. Hierarchical (choose one from each level):
IsCV | IsBankStatement | IsOther | ...
|
Barclays | HSBC | ...
2. Non-hierarchical:
IsCV, IsBankStatementBarclays, IsBankStatementHSBC, IsOther, ...
3. Both
4. Some other scheme perhaps informed by insider information?

奖励:您将如何使用可用的性能指标(或 V3.0 API)来衡量两个竞争分类法的性能(以最小的训练计算/成本)?

*对于这个绝望的问题,我深表歉意。在投票关闭它之前,请让 Azure 认知服务有时间发表评论,因为这似乎是他们可能能够提供输入的唯一论坛,并且他们确实通过 SO 请求查询。谢谢。

我认为自定义视觉目前仅支持非分层标签,但您可以在此处提交建议 https://cognitive.uservoice.com/forums/598141-custom-vision-service