如何在CRF++中使用目标标签作为功能

我正试图像本文一样构建一个中文分词器。如果我理解正确的话，他们使用CRF++的2标签分割方法。我的问题是，如何将该论文中的标记转换（例如，T（-1）C（0）T（0））作为CRF++中的特征模板？例如，对于这样的训练数据：

共B

同M

創B

造M

美B<-当前单词

好M

的B

新B

世B

紀M

是否可能具有特征T（-1）C（0）T（0）->M/美/CRF++中的B？我尝试添加功能临时，如U01:%x[-1,1]/%x[0,0]/%x[0.1]，但失败了。我也很困惑，既然B/I标签是我们想要在测试数据中标记的标签（例如原始中文句子），为什么可以在论文中使用标签作为特征？或者我误解了什么？

像T（-1）C（0）T（0）->M这样的特性/美/CRF++中的B可以表示为：

B01:%x[0,0]

请注意差异。B、非U

如果使用U01:%x[0,0]，则表示类似"美/B".

当我6年前第一次使用CRF++时，这也让我有点困惑。希望这能帮助到你。

我应该提到，在通用报告格式中，对特征的描述将包括标签。我的意思是，以下是0-1特征：当前字符为"美当前标签为"B"

CRF++中的"模板"（这是一种工具实现的CRF）所做的是在给定模板中定义的上下文的情况下枚举所有标签。

因此，在您的示例中，U01:%x[0,0]自动引入了两个功能："U01:美_y=B"one_answers"U01:美_y=M"

相关内容