利用词的极性分布来检测新词的情感

我刚刚开始了一个NLP项目。假设我对每个单词都有一个图表，显示了该单词在不同句子中的情感极性分布。我想知道我可以用什么来识别生词的感觉?你想到的任何其他用途，我都很乐意分享。我为写作中可能出现的错误道歉。谢谢你。

假设你已经有了一些被手工标记为积极/消极情绪的单词，但随后你遇到了一些没有被标记的新词:

如果你完全单独遇到新词，在上下文之外，你无能为力。(也许，你可以出去找一些有这些新单词的额外文本，比如在线词典或网络，然后在下一种方法中使用这些更大的文本。)
如果您在文本中遇到的新词也包含一些您手工标记的单词，您可以尝试猜测这些新词最像您已经知道的最接近的单词，或者在相同的地方使用的单词。这就利用了所谓的"分布假设"-具有相似分布的单词具有相似的含义-这是许多计算机自然语言分析的基础，包括word2vec。

沿着这条线尝试一个简单的事情:在所有文本中，对于每个未知单词U，计算N个位置内所有相邻单词的计数。(N可以是1，或者更大。)从中选出在未知单词附近出现次数最多的前5个单词，并查找之前的标签，并将它们平均起来(可能按出现次数加权)。

你会得到一个新单词的数字。

或者，你可以为所有文本训练一个word2vec词向量集，包括未知的&知道的单词。然后，让该模型找出N个与未知单词最相似的邻居。(同样，N可以是大或小。)然后，从那些具有已知标签的邻居中，将它们平均起来(同样可能按相似性加权)，得到之前未知单词的数字。

我并不特别期望这两种技术都能很好地工作。考虑到在实际语言中，它们的含义被周围的语法/上下文严重修改，甚至颠倒，单个单词可以具有特定情感的想法有些薄弱。但在每种情况下，这些简单的从邻居计算的技术可能比随机猜测要好。

如果你的真正目的是计算较长文本的整体情感，如句子、段落、评论等，那么你应该放弃单个单词的标签，为全文获取/创建标签，并将真正的文本分类技术应用于那些较大的文本。与其他技术相比，简单的逐字方法不会做得很好——只要这些技术有足够的标记训练数据。

相关内容