利用词的极性分布来检测新词的情感



我刚刚开始了一个NLP项目。假设我对每个单词都有一个图表,显示了该单词在不同句子中的情感极性分布。我想知道我可以用什么来识别生词的感觉?你想到的任何其他用途,我都很乐意分享。我为写作中可能出现的错误道歉。谢谢你。

假设你已经有了一些被手工标记为积极/消极情绪的单词,但随后你遇到了一些没有被标记的新词:

  • 如果你完全单独遇到新词,在上下文之外,你无能为力。(也许,你可以出去找一些有这些新单词的额外文本,比如在线词典或网络,然后在下一种方法中使用这些更大的文本。)

  • 如果您在文本中遇到的新词包含一些您手工标记的单词,您可以尝试猜测这些新词最像您已经知道的最接近的单词,或者在相同的地方使用的单词。这就利用了所谓的"分布假设"-具有相似分布的单词具有相似的含义-这是许多计算机自然语言分析的基础,包括word2vec。

沿着这条线尝试一个简单的事情:在所有文本中,对于每个未知单词U,计算N个位置内所有相邻单词的计数。(N可以是1,或者更大。)从中选出在未知单词附近出现次数最多的前5个单词,并查找之前的标签,并将它们平均起来(可能按出现次数加权)。

你会得到一个新单词的数字。

或者,你可以为所有文本训练一个word2vec词向量集,包括未知的&知道的单词。然后,让该模型找出N个与未知单词最相似的邻居。(同样,N可以是大或小。)然后,从那些具有已知标签的邻居中,将它们平均起来(同样可能按相似性加权),得到之前未知单词的数字。

我并不特别期望这两种技术都能很好地工作。考虑到在实际语言中,它们的含义被周围的语法/上下文严重修改,甚至颠倒,单个单词可以具有特定情感的想法有些薄弱。但在每种情况下,这些简单的从邻居计算的技术可能比随机猜测要好。

如果你的真正目的是计算较长文本的整体情感,如句子、段落、评论等,那么你应该放弃单个单词的标签,为全文获取/创建标签,并将真正的文本分类技术应用于那些较大的文本。与其他技术相比,简单的逐字方法不会做得很好——只要这些技术有足够的标记训练数据。

最新更新