斯坦福 NLP - 当 unigram 在进行愚蠢的退避平滑时,语料库中不存在时该怎么办



在平滑三元组的愚蠢退避中,如果未找到三元组,则我们回退到双元组,如果双元组也找不到,我们回退到unigram。但是,如果语料库中不存在 unigram 怎么办。在愚蠢退避部分的论文中提到

这 递归在 unigram 处结束

那么应该为一个全新的 unigram 分配什么概率,这在训练数据集中不存在。

一种解决方案可能是将 1/V 的概率分配给零克,其中 V 是你的词汇表的大小。或者,或者,用关键字(例如:UNK(替换语料库中的生僻词,并在初始语料库中计算相应的概率。

最新更新