我试图使用HMM来做命名实体识别,但后来,我发现大多数包含实体的句子都非常结构化。例如:苹果现在的价格是多少?而不是教模型学习句子中的每个单词,我能教它学习句子的结构吗?比如"What's "或"What is"后面的每个单词都应该是一种水果的名字吗?
谢谢!
与其使用HMM,不如考虑使用条件随机场。它们与hmm非常相似,但它们是判别型的(在Ng和Jordan的术语中,hmm和线性链crf形成了生成/判别对)。
这样做的好处是,你可以定义你的单词观察的特征,这些特征是当前单词的词性标记,前一个单词的词性标记,等等,而不需要对这些特征做出独立的假设。这将允许您将结构和词法特征合并到相同的决策框架中。
编辑:这是原文。这是一个非常全面的教程。
你可以从n-gram这样简单的东西开始探索这个结构,或者尝试一些更丰富的东西,比如语法归纳。