我有大量的yelp数据,我必须将评论分为8个不同的类别。
类别
Cleanliness
Customer Service
Parking
Billing
Food Pricing
Food Quality
Waiting time
Unspecified
评论包含多个类别,所以我使用了可乘分类。但是我很困惑如何处理积极/消极.示例评论可能对食品质量有利,但对客户服务不利。例如food taste was very good but staff behaviour was very bad. so review contains positive food quality but negative Customer service
我该如何处理这种情况?我应该在分类之前进行情绪分析吗?请帮助我
我认为您的数据与餐厅评论非常相似。它包含大约 100 条评论,每条评论都有不同数量的方面术语(更多信息(。因此,您可以像这样使用基于方面的情绪分析:
1 方面术语提取
从评论中提取方面术语。
2 方面极性检测
对于句子中给定的一组方面术语,确定每个方面术语的极性是正还是负。
3-确定方面类别
给定一组预定义的方面类别(例如,食品质量、客户服务(,确定给定句子中讨论的方面类别。
4-确定极性
给定一组预先确定的方面类别(例如,食品质量、客户服务(,确定每个方面类别的极性(正、负(。
有关类似项目的更多信息,请参阅此处。
我希望这能帮助你。
是的,您需要进行情绪分析。你为什么不创建数据的标记,即从句子中找到所需的单词,现在最可能的方法是找到相关的单词及其情绪。即食物很好,但清洁度不合适
在这种情况下,你有 [ 食物,好,清洁,不合适 ] 现在食物与其下一个术语链接,清洁度与其下一个术语"不合适"
同样,您可以将类别分为两个类,即 1,0 表示好和坏..或者您可以根据您的情况添加类。 然后你会有这样的数据:
--------------------
FEATURE | VAL
--------------------
Cleanliness 0
Customer -1
Service -1
Parking -1
Billing -1
Food Pricing -1
Food Quality 1
Waiting time -1
Unspecified -1
我举这个只是一个例子,其中 -1,1,0 分别表示没有评论,好和坏。您可以添加更多类别作为 0,1,2 坏的公平好 我可能不太擅长回答这个问题,但这就是我的感受。
注意:你需要明白,你的模型不可能是完美的,因为这就是机器学习的全部意义所在,你一定是错的。您的模型无法给出完美的分类,它必须为某些输入错误,它会随着时间的推移而学习并改进。
有很多方法可以进行多标签分类。
最简单的方法是为每个类提供一个模型,如果评论达到该标签的某个阈值分数,则将该标签应用于评论。
这将独立处理类,但这似乎是解决问题的好方法。