小贝子编程

如何使用hmmlearn对英文文本进行分类

本文关键字：文本分类 hmmlearn 何使用文文本 python-3.x text-classification markov-models hmmlearn
更新时间 : 2023-09-11
英文 : How to use hmmlearn to classify English text?

我想实现一个经典的马尔可夫模型问题：训练MM学习英语文本模式，并使用它来检测英语文本与随机字符串。

我决定使用hmmlearn这样我就不必自己写了。但是我对如何训练它感到困惑。它似乎需要HMM中的组件数量，但是英语的合理数量是多少？另外，我不能做一个简单的高阶马尔可夫模型而不是隐藏吗？据推测，有趣的属性是 ngram 的模式，而不是隐藏状态。

hmmlearn是为HMM的无监督学习而设计的，而你的问题显然是有监督的：给定英语和随机字符串的例子，学会区分两者。此外，正如您正确指出的那样，为文本数据定义隐藏状态的概念很棘手，因此对于您的问题，普通 MM 会更合适。我认为你应该能够在 Python 中用 <100 行代码实现它们。

相关内容

最新更新