下面有一个问题:
//-------- 问题开始 ---------------------
考虑以下由三个句子组成的小语料库:
The judge struck the gavel to silence the court. Buying the cheap saw is false
economy. The nail was driven in when the hammer struck it hard.
使用分布相似度来确定单词gavel在均值-上是否更相似用锤子或锯。要计算分布相似度,你必须(1)使用词袋在周围的±2个窗口作为特征,(2)不以任何方式改变上下文词(例如,通过词干提取或删除停止词)和(3)使用Dice测量来比较特征向量。确保展示你工作的所有阶段。
//-------- 问题结束 ---------------------
我不明白(1)中的±2窗是什么,有人能给我解释一下吗?非常感谢大家。
±2个窗口表示目标单词的左侧和右侧各2个单词。对于目标单词"silence",窗口将是["gavel","to","the","court"],对于"hammer",窗口将是["when","the","struck","it"]。