在哪里可以找到自然语言处理的维特比算法转换值



我刚刚看了一个视频,他们使用维特比算法来确定句子中的某些单词是否旨在成为名词/动词/adjs等,他们使用了过渡和发射概率,例如单词"Time"用作动词的概率是已知的(发射)和名词导致动词的概率(过渡)。

http://www.youtube.com/watch?v=O_q82UMtjoM&feature=relmfu(视频)

如何找到此用例的跃迁和发射概率的良好数据集?

或者即使只是一个显示所有概率的示例,我也想在演示中使用现实数字。

通常,隐马尔可夫模型(HMM)的实现不仅可以执行维特比算法进行标记,还可以执行用于训练模型的算法(例如鲍姆-韦尔奇算法)。然后,获得模型(即转换和发射概率的集合)的方法是在合适的训练语料库(例如PennTreebank)上运行训练算法

我不知道有任何免费提供的、现成的基于 HMM 的 POS 标记器实现,它带有一个可以轻松检查的预训练模型。但是,在许多方面类似于HMM的方法是条件随机场(CRF)。在日本东北大学创建的CRFTagger似乎带有一个预先训练的英语模型(请参阅下载和解压缩后model/model.txt的文件)。该文件是人类可读的,但要了解格式的详细信息,您可能需要联系作者。

最新更新