是否有一种机器学习方法来学习句子的结构而不是单词



我试图使用HMM来做命名实体识别,但后来,我发现大多数包含实体的句子都非常结构化。例如:苹果现在的价格是多少?而不是教模型学习句子中的每个单词,我能教它学习句子的结构吗?比如"What's "或"What is"后面的每个单词都应该是一种水果的名字吗?

谢谢!

与其使用HMM,不如考虑使用条件随机场。它们与hmm非常相似,但它们是判别型的(在Ng和Jordan的术语中,hmm和线性链crf形成了生成/判别对)。

这样做的好处是,你可以定义你的单词观察的特征,这些特征是当前单词的词性标记,前一个单词的词性标记,等等,而不需要对这些特征做出独立的假设。这将允许您将结构和词法特征合并到相同的决策框架中。

编辑:这是原文。这是一个非常全面的教程。

你可以从n-gram这样简单的东西开始探索这个结构,或者尝试一些更丰富的东西,比如语法归纳。

最新更新