如何使用hmmlearn对英文文本进行分类



我想实现一个经典的马尔可夫模型问题:训练MM学习英语文本模式,并使用它来检测英语文本与随机字符串。

我决定使用hmmlearn这样我就不必自己写了。但是我对如何训练它感到困惑。它似乎需要HMM中的组件数量,但是英语的合理数量是多少?另外,我不能做一个简单的高阶马尔可夫模型而不是隐藏吗?据推测,有趣的属性是 ngram 的模式,而不是隐藏状态。

hmmlearn是为HMM的无监督学习而设计的,而你的问题显然是有监督的:给定英语和随机字符串的例子,学会区分两者。此外,正如您正确指出的那样,为文本数据定义隐藏状态的概念很棘手,因此对于您的问题,普通 MM 会更合适。我认为你应该能够在 Python 中用 <100 行代码实现它们。

最新更新