NLP单词相似性中的±2窗口



下面有一个问题:

//-------- 问题开始 ---------------------

考虑以下由三个句子组成的小语料库:

The judge struck the gavel to silence the court. Buying the cheap saw is false economy. The nail was driven in when the hammer struck it hard.

使用分布相似度来确定单词gavel在均值-上是否更相似用锤子或锯。要计算分布相似度,你必须(1)使用词袋在周围的±2个窗口作为特征,(2)不以任何方式改变上下文词(例如,通过词干提取或删除停止词)和(3)使用Dice测量来比较特征向量。确保展示你工作的所有阶段。

//-------- 问题结束 ---------------------

我不明白(1)中的±2窗是什么,有人能给我解释一下吗?非常感谢大家。

±2个窗口表示目标单词的左侧和右侧各2个单词。对于目标单词"silence",窗口将是["gavel","to","the","court"],对于"hammer",窗口将是["when","the","struck","it"]。

最新更新