我有一个我认为特殊的问题,我正在尝试获取可能重叠的产品属性。
在我的情况下,考虑到标题、制造商和描述,我需要知道产品是牛仔裤还是其他什么,更进一步,是紧身牛仔裤还是其他类型的牛仔裤。通过sci工具包练习,我似乎一次只能预测一个类别,这不适用于我的情况,有什么关于如何解决这个问题的建议吗?
我现在想的是每个类别的训练数据,例如:
Jeans = ['desc of jeans 1', 'desc of jeans 2']
Skinny Jeans ['desc of skinny jeans 1', 'desc of skinny jeans 2']
有了这些训练数据,我会询问给定未知产品的概率,并期望得到这样的答案,以匹配的百分比表示:
Unknown_Product_1 = {
'jeans': 93,
'skinny_jeans': 80,
't-shirt': 5
}
我离基地很远吗?如果这是一条正确的道路,如果是,我该如何实现?
谢谢!
您可能正在描述一个称为多标签学习或多标签分类的任务。
该任务与标准分类任务之间的一个关键区别是,通过学习标签之间的关系,有时可以获得比训练许多独立标准分类器更好的性能。