给定文本中单词的bigram probabilities
,如何计算trigram probabilities
?
例如,如果我们知道P(dog cat) = 0.3
和P(cat mouse) = 0.2
我们如何找到P(dog cat mouse)
的概率?
谢谢!
在下文中,我将三元图视为三个随机变量A,B,C
。所以dog cat horse
就是A=dog, B=cat, C=horse
。
使用链式规则:P(A,B,C) = P(A,B) * P(C|A,B)
。如果你想保持准确,现在你就卡住了。
您可以做的是假设C
独立于给定B
的A
。则认为CCD_ 13。还有P(C|B) = P(C,B) / P(B)
,你应该能够根据你的三角图频率来计算。注意,在您的情况下,P(C|B)
实际上应该是C
跟随B
的概率,所以它是BC
的概率除以B*
的概率。
综上所述,当使用条件独立性假设时:
P(ABC) = P(AB) * P(BC) / P(B*)
为了计算P(B*)
,你必须将以B
开始的所有三元图的概率相加。