当前,我正在研究项目,其中我必须对餐厅评论数据进行分类。我正在使用多项式幼稚贝叶斯算法。我有点困惑我的问题与多类或多标签有关。
回顾示例 -
请像对待客户一样对待客户,而不是狗。我永远不会去,也不会建议任何人去Naivedyam,Hauz Khas。食物的口味很糟糕,但是地点和工作人员太脏了
它包含三个不同的类,例如
Bad Experience
Staff Behavior
food quality
如何创建培训数据集?
我应该使用多标签并创建培训数据集,例如
ID Content Tags
1, "content of the review#1", Bad Experience,Staff Behavior,food quality
或
类似于多类
Review Tags
above review, Bad Experience
above review, Staff Behavior
above review, food quality
任何建议
您的问题是一个多标签分类示例。
一种方法是将每个输出响应视为一个单独的二进制分类问题
X Y1 Y2
0 1.438161 0 1
1 -0.283780 1 1
2 0.552564 1 0
3 1.931332 0 1
4 1.656010 0 1
5 0.944862 1 0
其中y1,y2是一次单式编码,该编码是否发生了"不良经验"或"员工行为"。
您可以在Scikit-Learn文档中找到用于多标签分类的效用示例。