我正在尝试制作一个马尔可夫模型,与此相关,我需要计算某些字母的条件概率/质量概率。我创建了一个信件频率的双字母。
我将如何计算我的字母的条件概率/质量概率?
计算条件概率的最简单方法是遍历模型中的事例,计算 1) 条件发生的事例和 2) 条件和目标字母出现的事例。 条件概率是这两者的比率。
def cp(target, given):
'Given is a one or two tuple and target is the letter following'
g = 0.0
g_and_t = 0.0
n = len(given)
for case, count in model.iteritems():
if case[:n] == given:
g += count
if case[n] == target:
g_and_t += count
return g_and_t / g if g else 0.0
print cp(target='r', given=('f', 'o'))