我正在开发一个机器学习模型来预测客户对某些产品评论的情绪极性。
目前,我使用预先训练的twitter roberta基础情绪作为基础模型。
它在大多数情况下都很有效,除非预测文本中包含俚语。
例如,它预测";这个产品是防白痴的"错误地称为否定。
因此,我想在训练数据集中添加一些标记的包含俚语的例句,以提高模型在包含俚语的句子中的性能。
例如:
[
{"doc":"I am having a blast with this game.", "sentiment": "Postive"},
{"doc":"This game is like pigeon chess", "sentiment": "Negative"},
...
]
我找到了SlangSD,一个俚语情感词典。对于我的项目,它作为训练数据集有2个缺点。
- 每个条目中只有单词,没有句子
- 它不仅包含俚语,而且还包含许多普通词,如"具有"项目"字典";,等等
我不知道你要针对的俚语程度,但通过将SlangSD与普通英语词典交叉,你可能会得到true俚语的列表。
然后,抓取一个电影/游戏/论坛网站,只在你的新俚语列表中选择带有术语的评论/帖子,我相信可以做到(给你一组带有俚语的句子(。对于这个标签来说,在句子中加上与俚语相同的标签是不完美的,但我相信这是非常可行的。